top of page

突破 AI 記憶體與功耗雙重撞牆期:Marvell Photonic Fabric™ 如何重塑 Scale-Up 架構|矽光子資源池化技術解析

  • 4天前
  • 讀畢需時 3 分鐘

前言

AI 基礎設施正遭遇殘酷的物理極限:Scale-Up 叢集跨不出單一機櫃的邊界,處理器與記憶體頻寬嚴重脫節,而「搬移數據」本身更成了一隻吃掉運算資源的功耗巨獸。當傳統銅線的 SerDes 逼近物理極限,Marvell 藉由最新發布的 Photonic Fabric™ 光學技術平台,給出了他們的答案。這不僅是把傳輸介質換成光纖,更是透過光學引擎的深度整合,從根本上重構 AI 網路。

核心洞察 (Key Insights)

1. 規格突破:Sub-200ns 延遲與 50 公尺無 Retimer 傳輸

在傳統電氣架構下,跨機櫃的資料傳輸必須依賴大量 Retimer 晶片來重整訊號,這不僅墊高了延遲,也成為功耗的一大負擔。Marvell 這次釋放的最具殺傷力規格,在於其底層的光學傳輸能力:

  • Photonic Fabric 提供了低於 200 奈秒(sub-200ns)的 XPU 到 XPU 延遲。  

  • 在長達 50 公尺的連線距離內,完全不需要依賴重定時器(Retimer)。  

  • 這項技術突破使 Scale-Up 系統得以跨越單一機櫃的物理限制,穩健支援具備數千顆處理器的大規模 AI 叢集。  


2. 打破記憶體牆:走向資源池化的 Memory Appliance

現在的 AI 叢集架構中,HBM 雖然速度極快,但容量有著絕對的硬極限,且記憶體被綁死在單一處理器上,這正是所謂的「記憶體牆」。為了解決這個瓶頸,Marvell 提出了系統級的設計創新:  

  • Photonic Fabric Memory Appliance 是一款具備低延遲、大容量,且支援多機櫃(Pod-scale)架構的機架式記憶體設備。  

  • 該設備允許叢集中的各個 XPU 跨節點共享記憶體容量,解決了單一處理器掛載記憶體容量受限且無法共享的痛點。  

  • 透過這項池化(Pooling)技術,不僅能有效降低每 GB 的硬體成本,還能顯著提升 XPU 系統的運作效能,進而降低整體 AI 推論的運算成本。  


3. 功耗與封裝的極限拉扯:能效與算力的雙倍提升

在目前的 AI 系統裡,將數據於運算核心與記憶體之間來回搬移,消耗了系統中極大比例的總功率。要降低這段介面的電信號損耗,唯一的路就是將光學元件盡可能貼近晶片:  


  • Photonic Fabric 透過將光學元件整合至更靠近 XPU 的位置,大幅減少了傳統電氣路徑(如 PCB 銅線走線)上的信號損耗。  

  • 憑藉著更高效的資料傳輸機制,相較於傳統銅線架構,此光學技術可提供高達 2 倍的能源效率。  

  • 在相同的實體空間與功耗限制(Footprint)下,該技術能讓資料中心塞入多達 2 倍的運算能力。  

  • Photonic Fabric 平台同時也是 Marvell 廣泛技術組合的一環,這包含了 CPO(共封裝光學)、NPO(近封裝光學)、可插拔模組、CXL 設備、客製化 HBM、先進封裝技術,以及 Die-to-die 內部互連。  


產業連鎖反應

我們觀察到,Marvell 這次的發表不僅是產品線的更新,更是從「DSP 晶片供應商」正式向「系統級光互連平台」發起進攻。

  • 競爭對手的技術路徑對比: NVIDIA 目前在 Scale-Up 領域主要透過 NVLink 銅纜搭配自家的 Retimer 固守城池,並利用 Spectrum-X 推進 Scale-Out 網路;Broadcom 則猛推 Bailly CPO 交換機與 PCIe/CXL 光學延伸。相較之下,Marvell 透過 Photonic Fabric,將戰場直接拉到了「記憶體與算力解耦」的深水區,利用其強大的 DSP 與混合訊號底蘊,試圖在 CPO/NPO 封裝上彎道超車。

  • 供應鏈的洗牌效應: 當光學引擎(Optical Engine)與 XPU 深度整合(如 CPO/NPO),傳統的 Pluggable 光模組廠商在機櫃內部互連(Scale-Up)的市場份額勢必會受到擠壓。未來的核心價值將會加速轉移到晶圓級光學封裝技術(例如台積電的 COUPE)、外掛高功率雷射光源(ELSFP)的熱管理,以及具備高精度微透鏡陣列(FAU)的封裝測試廠。


總結

這項技術絕非過渡方案,而是宣告了 AI 基礎設施的終局之戰正式開打。

Photonic Fabric 的意義在於,它不僅僅是把銅線換成光纖,而是利用光學打破了記憶體的實體邊界,讓 AI 網路從「被動傳輸」轉型為「主動資源分配」。

未來 6-12 個月的技術觀察指標:

  1. 封裝良率與可靠度爬坡: 將光學元件極度靠近 XPU 後,高溫環境對雷射光源與光學耦合介面的影響,其 FIT(Failures in Time)數值能否滿足 Hyperscaler 的嚴苛驗證。

  2. CXL 與光學池化的互通性測試: Memory Appliance 在實際多節點叢集中的 Plugfest 互通性測試結果,以及作業系統層級對於遠端記憶體池的調度效率。

  3. 生態系壁壘: Marvell 能否快速將此平台與主流 ASIC/GPU 廠商(如客製化 AI 晶片)進行實質的設計導入(Design-in),將是決定其市佔率的關鍵。



留言

評等為 0(最高為 5 顆星)。
暫無評等

新增評等
bottom of page