top of page

技術文章分析 | OCP 2026 白皮書:OCS 正式從 Google 內部專利,走進整個資料中心產業的工具箱

  • 5月15日
  • 讀畢需時 8 分鐘

光通訊圈過去三年最常被引用、但也最常被誤解的一份文件,是 Google 在 SIGCOMM 2022 發表的「Jupiter Evolving」論文。那篇論文揭露了一件事:Google 已經把它的資料中心 Spine 層用光交換(Optical Circuit Switching,OCS)取代了——而且省下 41% 的網路功耗、30% 的 CAPEX。

這件事在當時看起來像「Google 又用了一個別人做不到的內部技術」。但 2026 年 4 月,Open Compute Project(OCP)發布了一份白皮書,作者群來自 iPronics、Lumentum、Ciena、Carnegie Mellon、Lumotive 五家不同立場的玩家,把 OCS 拉到產業共識的層級。

這份白皮書最重要的訊號不是技術內容,而是它的存在本身:OCS 已經從「Google 獨門武器」變成「OCP 社群正式背書的下一代資料中心骨幹」。整個產業——包括台灣供應鏈——應該開始把它放進工具箱裡,而不是繼續當成研究室裡的東西。


1、為什麼是現在

EPS(電子封包交換,Electrical Packet Switching)這條路撐了 30 年,但走到 AI 訓練世代撞牆了。白皮書點出三個結構性問題:

第一是功耗。每一台 EPS 都要做 OEO 轉換(光-電-光),這個轉換本身就是電老虎。白皮書直接給出數字:一座大型資料中心若用 64 台 16 槽機箱型 spine switch,每台 30kW 功耗(400G 半套相干光模組),光是 spine 層滿載時就要吃掉 1.9 MW。這還沒算冷卻。

第二是延遲與抖動。AI 訓練中的 collective operation(AllReduce、AllGather)是同步阻塞型的——只要有一個封包慢了,整批 GPU 都得等。EPS 的封包緩衝、佇列競爭、擁塞控制都是延遲變異的來源。論文 [9] 給的數字很直白:在大規模叢集中,網路效能變異會明顯拉低應用級擴展性。

第三是擴展性。封包交換機的單機 radix 隨著每埠速率提升反而下降——port count 跟不上頻寬,於是只能多層堆疊,每多一跳就多一次 OEO,功耗與延遲雙重劣化。

OCS 的解法很暴力:乾脆不轉成電。光從入埠進來,直接被導向另一個出埠,整條光路保持在光域。沒有封包緩衝、沒有 OEO、沒有 QoS 處理。代價是失去封包級的控制能力。


2、把 OCS 想成「玻璃窗」,不是「處理器」

白皮書裡有一段比喻寫得特別好。它說 OCS 應該被理解成「a clear glass window」——它只是把光導過去,不去讀它、不去處理它、甚至不知道光裡面在傳什麼。

這跟 EPS 是兩種完全不同的物種。EPS 像郵局:每個封包進來都要拆封、看地址、決定怎麼轉發、再封回去。OCS 像鐵軌切換器:扳一下道岔,整列火車就改方向,至於車廂裡裝什麼貨,跟它無關。

這個物種差異帶來四個直接後果:

  • 好處 1:因為不讀內容,OCS 是 protocol-agnostic 與 rate-agnostic 的。同一台 OCS 今天可以接 100G,明天升 400G,後天升 1.6T,硬體不用換。對 hyperscaler 來說,這代表 spine 層可以一次部署、長期使用,不用每兩三年砍掉重練。

  • 好處 2:沒有 OEO 轉換,沒有電子處理,於是功耗很低、延遲極低、抖動接近零。

  • 代價 1:OCS 是電路交換(circuit switching),點對點建立連線後就一直保持,不能像封包交換那樣動態 fan-out 給多個目的地。所以它不適合處理高度動態、突發性、不可預測的流量。

  • 代價 2:因為不讀封包,QoS、流量檢測、telemetry 這些功能全部做不到。Insertion loss 累積也限制了 OCS 的「跳數」——白皮書明確指出,目前實用部署大概只能撐 1-2 hops,再多就要加 SOA(半導體光放大器)來補損耗。

理解這四點,才能理解為什麼 OCS 不是 EPS 的「取代者」,而是「互補者」——它去吃 EPS 最痛的那塊(spine 層的長連線、大流量、慢變化),把封包級控制讓給 EPS 繼續做。


3、技術路線盤點:六條路、各有戰場

白皮書把目前可實作 OCS 的物理技術分成六大類,這張對照表是整份文件最值得收藏的部分


技術路線

Radix(埠數)

Insertion Loss

切換時間

適合場景

Robotic(機械式光纖 patch panel)

秒~分鐘

變化緩慢、超大規模

MEMS(微機電鏡)

毫秒

量產主流,Google TPU 用這個

Liquid Crystal(液晶)

毫秒

需偏振多樣化處理

Piezoelectric(壓電)

毫秒

精準對位、長期穩定

Silicon Photonics(矽光子 MZI)

低-中

奈秒~微秒

切換最快、可量產

Metasurface(超穎表面)

微秒

緊湊、無偏振依賴

  • Robotic(機械式光纖 patch panel):Radix 大、Insertion Loss 低、切換時間秒~分鐘、適合變化緩慢的超大規模

  • MEMS(微機電鏡):Radix 中、Insertion Loss 中、切換時間毫秒、量產主流(Google TPU 用這個)

  • Liquid Crystal(液晶):Radix 中、Insertion Loss 中、切換時間毫秒、需偏振多樣化處理

  • Piezoelectric(壓電):Radix 中、Insertion Loss 中、切換時間毫秒、精準對位、長期穩定

  • Silicon Photonics(矽光子 MZI):Radix 低-中、Insertion Loss 高、切換時間奈秒~微秒、切換最快、可量產

  • Metasurface(超穎表面):Radix 大、Insertion Loss 中、切換時間微秒、緊湊、無偏振依賴


這張表透露了三個產業判斷的關鍵:

判斷 1:MEMS 是現在進行式。Google TPUv4 Superpod 用的就是 128-port MEMS-based OCS,已經量產跑了好幾年。MEMS 的成熟度、可靠度、port count 三項都對齊產業需求,未來 3-5 年仍是主流。Lumentum、Coherent 這些公司就是衝著這條線在投資產能。

判斷 2:矽光子 OCS 是未來決勝場。為什麼?因為它的切換時間是奈秒到微秒級——比 MEMS 快 1000 倍。當 AI 訓練要做「在 iteration 之間動態重構網路拓樸」時,毫秒級的 MEMS 慢了,只有矽光子能跟得上。代價是 insertion loss 高、port count 受限,但這兩個問題可以用 SOA 整合 + 多級堆疊解決。下一個十年的設計戰場在這。

判斷 3:Metasurface 是黑馬。Lumotive 在白皮書作者群裡不是偶然——他們用 ±80° 的大角度光束導向、波長級子像素,做出緊湊、高密度、無偏振依賴的 free-space OCS。這條路線目前還在 narrative 階段,但如果 form factor 真的做得出來,會直接顛覆機架內互連的設計思維。


4、五個應用案例,三個量化里程碑

白皮書最有實用價值的部分,是把 OCS 的應用場景拆成五個具體案例,並給出可被檢驗的數字。我們只看三個最關鍵的:


案例 A:Google Jupiter — Spine 層替換

這是現在進行式、最成熟的應用。Google 把資料中心 spine 層的 EPS 全部換成大 radix、慢切換的 OCS。所有 leaf EPS 直接透過扁平的光層互連。

數字:41% 網路功耗下降、30% CAPEX 下降、5× 吞吐量提升、部署時間大幅縮短。這些不是模擬結果,是 Google 在 Jupiter Evolving 論文 [1] 公布的量產數據。

更重要的是,OCS spine 對 leaf 升級是「透明」的——當 leaf 從 100G 升到 400G 再升到 800G,spine 不用動。這在 EPS 架構下是不可能的。


案例 B:Google TPUv4 Superpod — 從靜態到動態 AI cluster

這是 OCS 第一次從「網路骨幹」走進「AI 計算結構」的標誌性應用。

Google TPUv4 把 64 個 Cube(每個 64 顆 TPU)組成一個 Superpod,總共 4096 顆 TPU。每個 Cube 連到 3 組共 48 台 128-port MEMS OCS(X、Y、Z 三個維度各 16 台)。這意味著 Superpod 的內部拓樸不是固定的——可以根據每個訓練任務的通訊模式,動態重構成 torus、ring、mesh 等不同形狀


這張圖展示了可重構 Cube 的核心概念:同一個實體硬體叢集,能根據 job 需求被切成不同子單元。對 LLM 訓練的效益有多大?白皮書引用論文 [11] 的數字:比起靜態配置,TPUv4 Superpod 訓練大型語言模型獲得 3.3× 效能提升,同時功耗降低 9%

這還沒算上故障恢復的好處。傳統 EPS 架構下,1024-TPU slice 在 99.9% 伺服器可用度的前提下,實際有效吞吐量只剩 25%;換成可重構的 OCS Superpod 後,同樣 slice 大小、同樣可用度,有效吞吐量拉到 75%。


案例 D:ACTINA — 把 OCS 做到 GPU 端口級

如果說 TPUv4 是「機架間動態重構」,那 Columbia 大學與 NVIDIA 在 SC 2025 發表的 ACTINA 論文 [5] 就是把這個思維推到極致——直接做到 GPU 端口級重構



這張圖展示了 ACTINA 的核心創新:每顆 GPU 直接整合一顆「多埠、波長可重構的矽光子收發器」(用 MZI + DWDM comb-laser 實作),允許在訓練的單一 iteration 內就動態重新分配光路頻寬。

結果有多猛?相比 OCS-enabled 3D Torus(也就是 Google TPUv4 的拓樸),ACTINA 的 OCS-BCube 給出 1.84× 更快的 iteration 時間,同時保持相當的能源效率;相比 Google Jupiter 的 OCSFT-2L 架構,能源消耗降低 1.72×,tokens-per-joule 提升 1.75×。

ACTINA 的關鍵假設是:矽光子 OCS 切換速度夠快,可以在 GPU 計算階段完成下一階段的拓樸重構。這個假設成立的前提,就是前面講的「矽光子 OCS 是未來決勝場」這條判斷。如果矽光子 + SOA 整合的良率與成本能在 2028 之前對齊,這條路線會直接吃掉 MEMS 的高階市場。

案例 E:MixNet — 專為 MoE 訓練設計的混合電光網路

最後是香港科大團隊在 SIGCOMM 2025 發表的 MixNet [7],這是另一個指向「矽光子 OCS + GPU 直連」的訊號。

這張圖展示了 MixNet 的混合架構:Local scale-up(NVSwitch)負責伺服器內 TP 流量、Global scale-out(EPS)負責 DP 與 PP、Regional OCS Fabric 專門服務 EP(Expert Parallelism)的 all-to-all 通訊。MixNet 利用了兩個觀察:EP 通訊是 localized 的(每次只有 8-32 顆 GPU 參與)、且 iteration 之間的變化是 gradual 的(所以可以用前一輪的 pattern 預測下一輪)。

實測結果:Mistral 8×7B MoE 模型的訓練時間比靜態 fat-tree 縮短 1.6×。

MoE 是目前 LLM 設計的主流方向(GPT-4、Mixtral、DeepSeek-V3 都是 MoE 架構),這意味著 MixNet 這條路線有真實、立即、規模化的市場需求。

5、產業判斷:三點宣判

整份白皮書讀完,給三個明確的產業判斷:

  • 宣判 1:OCS 已從「狼來了」變「狼進門」。過去三年產業界對 OCS 的態度是觀望——畢竟只有 Google 在用。但 OCP 這份白皮書、ACTINA 與 MixNet 這兩篇學術論文,加上 NVIDIA 在 OCS resiliency 上的著墨(白皮書案例 C 來自 NVIDIA 的最新發表 [4]),意味著至少 Microsoft、Meta、Amazon、NVIDIA 都在內部評估或試行 OCS 架構。矽光子供應鏈現在已經進入「鎖產能、付訂金、搶配額」的階段(這跟我們之前在 法說精華:Tower Semiconductor(TSEM)|2026 Q1 提過的判斷一致),OCS 是這波需求的重要驅動力之一。

  • 宣判 2:矽光子 OCS 是技術路線的最終答案,但 MEMS 還會撐 3-5 年。MEMS 已經量產、可靠、便宜,是現在進行式的賺錢工具。但當資料中心拓樸需要「intra-iteration 動態重構」(也就是 ACTINA 與 MixNet 那個方向),毫秒級的 MEMS 就不夠用,必須換成奈秒級的矽光子 MZI。這個轉折點大約落在 2028-2030 年,跟 ZR 是肉,Coherent Lite 是骨:光收發器市場下一個十年的縱深戰 一文裡分析的 Coherent Lite 起量時間軸高度重疊——這不是巧合,整個光通訊產業在這段時間會經歷一次世代切換。

  • 宣判 3:下一個戰場在「GPU 端口級重構」。ACTINA 與 MixNet 的論文都指向同一件事:把 OCS 直接整合進 GPU 收發器。這對台廠供應鏈意味著什麼?三個機會點:(a)矽光子 PIC 代工——Tower 已經在排隊,但產能不夠,給其他代工廠機會;(b)DWDM comb-laser 與 EML chip——量會跟著放大,台廠在這塊本來就有底;(c)整合封裝測試——CPO / NPO / XPO 這些封裝形式的技術 know-how 會直接遷移過來。台廠的卡位點還是在上游元件,不是 DSP 或系統整合


2022 年 Google 公開 Jupiter Evolving 時,產業界多數人把它當成「Google 用了一個別人做不到的東西」。三年後的 2026,OCP 用一份白皮書告訴我們:別人也準備做得到了。對台廠來說,從「觀望這個技術」到「準備這個產能」之間,可能只剩 18 到 24 個月的時間窗口。

本文僅供技術與產業趨勢分析,不構成任何投資建議。


留言

評等為 0(最高為 5 顆星)。
暫無評等

新增評等
bottom of page