top of page

技術文章分析 | HPE 把一整座光神經網路搬上單片晶圓:異質整合 III-V-on-Si 如何改寫 AI 加速器的能效帳

  • 21小时前
  • 讀畢需時 6 分鐘

這篇不是在炫耀某顆破紀錄的元件,而是端出一整套「能在同一片矽晶圓上長出光神經網路所有積木」的平台。 真正值得 STT 讀者記住的,是三個數字和一個誠實的承認:

  • MOSCAP 相移器把相位調控的靜態功耗壓到熱光方案的一億分之一(8 個數量級);一個 4×4 MZI mesh 從 600 mW 直接掉到 4.5 nW。

  • 平台級成績:TONN 架構的 footprint-energy efficiency 比其他光子平台(PCM、矽光子)高 290 倍,比最先進的數位電子還高 140 倍。

  • 一根光纖、全矽 APD 接收端做到 1.28 Tb/s;單顆 Z 形結矽微環調變器跑出 200G PAM4。

  • 而最誠實的一句話在論文最後面:光元件其實只佔整顆加速器功耗的 25%,剩下 75% 是數位週邊和光電轉換——瓶頸已經不在光,在外圍。

矽光子很會導光,卻是個糟糕的發光體;III-V 很會發光,卻很難長成複雜電路。HPE 的賭注,是把兩者強迫結婚。

1、先看清楚問題:為什麼矽光子一個人辦不到

光神經網路(Optical Neural Network,ONN)的誘惑很單純:矩陣乘法是神經網路最吃算力的動作,而光天生就會做線性代數,還能用波長分工(WDM)大規模平行處理,理論上能在「光速、零電容延遲、零電阻發熱」的條件下完成 MVM。

問題不在原理,不在頻寬,而在規模。今天 demo 出來的 ONN 線性層大多卡在 64×64 以下,而電子端一個 NVIDIA Volta 神經元就能有 4096 個突觸連接。原因有二:第一,主流 ONN 用串接的 Mach-Zehnder 干涉儀(MZI)來實現任意么正權重矩陣,要做到 1024×1024 需要 O(N²) 顆 MZI、O(N) 級串接——光損耗和控制複雜度會直接爆掉。第二,矽是間接能隙材料,發光效率極差,而把 III-V 雷射晶片對位貼到矽光子晶片上又會帶來額外耦合損耗與封裝複雜度。

圖說:典型前饋深度神經網路,以及一個「光子神經層」要完成的三件事——資料前送/放大、光學 MVM、非線性活化。
圖說:典型前饋深度神經網路,以及一個「光子神經層」要完成的三件事——資料前送/放大、光學 MVM、非線性活化。

HPE 的答案:異質整合。用 2006 年發現的 O₂ 電漿輔助晶圓鍵合,把長在 III-V 基板上的磊晶層轉貼到矽上,再移除 III-V 基板——既拿到 III-V 的高效增益,又避開直接磊晶長 III-V on Si 的晶格錯位地獄。Intel、CEA-Leti、Tower 都已採用同類路線量產雷射與光偵測器。


2、關鍵圖表逐一解析

2-1 光源:QD comb laser + 1310nm QD-DFB

這張圖展示了量子點梳狀雷射(QD comb laser)的本事:單顆 2.6 mm 腔長的元件,3 dB 頻寬達 2.1 THz,在 50°C 下可在 50 條以上梳齒做到 error-free 操作。對 ONN 來說,一顆 comb laser 就是一整排 WDM 輸入波長,省掉「把多顆單波長雷射封到同一基板」的良率噩夢。

QD comb laser 光譜,3 dB 頻寬 2.1 THz、6 dB 3.1 THz、10 dB 4.4 THz,覆蓋整個 O band。
QD comb laser 光譜,3 dB 頻寬 2.1 THz、6 dB 3.1 THz、10 dB 4.4 THz,覆蓋整個 O band。

另一條是 1310nm QD-DFB 雷射:連續波操作下閾值電流密度低到 134 A/cm²、wall-plug efficiency 9.4%,70°C 仍維持單模、窄 Lorentzian 線寬與高 SMSR,並 demo 出 12.5 Gb/s 直調、25 Gb/s 外調。

QD-DFB 溫變 LIV 特性,20–70°C 全溫域維持高 SMSR,可直接調變把輸入向量印到雷射上。
QD-DFB 溫變 LIV 特性,20–70°C 全溫域維持高 SMSR,可直接調變把輸入向量印到雷射上。

2-2 真正的破口:MOSCAP 相移器把功耗砍掉一億倍

如果只能記住一張圖,記這張。HPE 用異質 III-V/Si MOS 電容(MOSCAP)相移器取代傳統熱光相移器:漏電流僅 20–50 fA、4V 擺幅下調諧效率約 1.6 nm/pW,靜態功耗比熱光方案改善超過 9 個數量級,而且不產生熱串擾。

這張圖把帳算給你看:在 MZI 結構裡做 ~π 相移,熱光要 80 mW,MOSCAP 只要 0.6 nW——超過一億倍的差距。攤到一個 4×4 mesh(六個 2×2 MZI),靜態功耗從 600 mW 掉到 4.5 nW。


熱光相移器 vs III-V/Si MOSCAP 相移器,~π 相移的靜態功耗對比,>1 億倍差距
熱光相移器 vs III-V/Si MOSCAP 相移器,~π 相移的靜態功耗對比,>1 億倍差距

光計算長期被熱光調控的功耗綁架。MOSCAP 把這條鎖鏈一刀剪斷,athermal 相移器才是大規模 ONN 真正能放大的前提。

2-3 把記憶體也搬進光域:memresonator 與全矽 ATM

馮紐曼瓶頸的解法是 in-memory computing,而 HPE 的非揮發相移器有兩條路。一條是 memresonator:把 ReRAM 憶阻器整進微環,用 set/reset 在氧化層拉出導電絲,達成 >π 相移、6 個非揮發狀態、24 小時保持、1000 次切換;切換能量只要 0.15 pJ、可用次奈秒脈衝、4V 驅動,與 CMOS 相容。另一條更激進——全矽避崩誘陷記憶體(Si ATM),純矽、零靜態功耗。


memresonator 工作原理與多狀態保持特性。相較 PCM 切換更快、功耗更低。
memresonator 工作原理與多狀態保持特性。相較 PCM 切換更快、功耗更低。

2-4 高速調變器:單環 200G、五環 1 Tb/s

Z 形結矽微環調變器(MRM)相較傳統側向 PN 接面把調變效率拉高約 67%、頻寬提升 21%,做到 Vπ·L ≈ 0.6 V·cm、3 dB 頻寬 >48 GHz,單顆跑出 200 Gb/s PAM4;兩段式結構讓 PAM4 用兩路簡單 NRZ 驅動就成,省掉 DAC 與等化器。靠 MRM 的波長選擇性,5 通道陣列在單一 bus 波導上做到 1 Tb/s。


Z 形結 Si MRM 的 200G PAM4 眼圖。
Z 形結 Si MRM 的 200G PAM4 眼圖。

2-5 接收端:全矽 APD,一根光纖 1.28 Tb/s

Ge-on-Si APD 暗電流偏高,HPE 端出兩條替代。其一是帶反射器(DBR/環形反射器)的 Si/Ge APD,responsivity 從 ~0.75 A/W 拉到 ~1.12 A/W;更狠的是全矽雙微環 APD——用標準矽光子製程(Advanced Micro Foundry MPW)就能做,8 通道單通道 160 Gb/s、暗電流低到 1 nA、串擾 <−50 dB,單根光纖聚合頻寬 1.28 Tb/s。另有 QD APD 暗電流低到 10 pA、GBP 585 GHz。


8 通道全矽雙微環 APD 的暗電流、頻寬與眼圖。
8 通道全矽雙微環 APD 的暗電流、頻寬與眼圖。

3、技術亮點:TONN —— 先把神經網路「張量壓縮」,再攤到波長上

光神經網路最大的敵人是「MZI 數量」。HPE 的張量化光神經網路(Tensorized ONN,TONN)借用 AI 圈成熟的剪枝/TT 分解,把不重要的參數壓掉——本質上是對多維矩陣(張量)做奇異值分解。由於 2D 光晶片天生沒有張量運算,HPE 把張量索引攤到「波長 + 空間」兩個維度,用一排波長平行的光子張量核去乘。

成績:在 MNIST 上達到 >95% 準確率,卻只用了傳統 ONN 的 1/79 的 MZI、1/5.2 的串接級數。摺疊佈局下,2048×2048 與 4096×4096 的 TONN 能塞進單一 DUV stepper die。

TONN 架構全圖,全部元件都能長在同一片 III-V-on-Si 上。
TONN 架構全圖,全部元件都能長在同一片 III-V-on-Si 上。
各類 ANN 硬體 footprint-energy efficiency 對照,III-V/Si TONN 以 4.1×10²⁸ 領先。
各類 ANN 硬體 footprint-energy efficiency 對照,III-V/Si TONN 以 4.1×10²⁸ 領先。

4、產業連結:距離量產還有多遠,誰會先受益

把話說白:這仍是 research platform,不是貨架上的產品。但它的價值在於把整個光神經網路的零件清單一次補齊——市面上多數 foundry 的矽光子 PDK 只提供有限元件,根本長不出完整 DNN 層,HPE 的平台是少數能在 wafer-scale 同時提供片上雷射、放大器、高速偵測器、能效調變器與非揮發相移器的。

受益順序大概會是:先是資料中心 AI 加速器(HPE 自己的異質運算架構),再往邊緣 AI 延伸。對台灣供應鏈,真正的近場機會不在「整套 TONN」,而在它拆解出來的單點元件——1310nm 高效 CW-DFB、QD comb laser、低暗電流 APD、矽微環調變器,每一個都是現成的光通訊/CPO 供應鏈品項。


5、結論宣判 + STT 觀點

這篇論文在技術史上的定位很清楚:它證明了「整套光神經網路積木可以在單一異質平台上長齊」,把 ONN 的瓶頸從「元件不夠」推進到「系統怎麼整合」。

但 STT 必須冷靜指出論文自己揭露的限制,這也是它最值得尊敬的地方:

系統級模擬顯示,光元件(雷射、PD、調變器)只佔整顆加速器功耗的約 25%,光是「在數位域用 ALU 跑非線性活化」就吃掉約 22%。換句話說,矽光子省下的電,正在被數位週邊和 E/O 轉換吃回去。

這把問題從「光元件做得多好」翻轉成「敢不敢把非線性也搬回光域」。HPE 的答案是用 SOA 和雷射當全光活化函數,順便補償全鏈路損耗。另外兩道現實的牆:BOX 層擋熱導致的散熱難題(HPE 用 thermal shunt 改善 30–40%),以及目前晶片上最多只整合到 3 層神經網路的可擴展性上限。

STT 宣判:這不是一篇「我們做了一顆很強的元件」的論文,而是一篇「我們把整座工廠的生產線都備齊了」的論文。光計算的劇本,正在從「單點破紀錄」翻頁到「平台整合戰」——而誰能先把非線性與記憶體都關進光裡,誰就拿到下一輪 AI 基建能效戰的入場券。


參考來源

B. Tossoun, X. Xiao, S. Cheung, et al., Large-Scale Integrated Photonic Device Platform for Energy-Efficient AI/ML Accelerators, IEEE Journal of Selected Topics in Quantum Electronics, vol. 31, no. 3, Art. no. 8200326, May/June 2025 (Invited Paper).

DOI: 10.1109/JSTQE.2025.3527904. Hewlett Packard Labs, Hewlett Packard Enterprise.


留言

評等為 0(最高為 5 顆星)。
暫無評等

新增評等
bottom of page