Google 把答案寫進 13.4 萬顆 TPU：Virgo Network 揭曉的，是一場 OCS 的勝利

6月5日
讀畢需時 5 分鐘

當大家還在爭論 CPO（共封裝光學，Co-Packaged Optics）哪一年量產，Google 在 2026 年 Cloud Next 上直接把一整代答案攤在桌上。它的名字叫 Virgo Network——一張能把 13.4 萬顆 TPU 黏成「一台機器」的網路，而真正撐起這張網路的，不是什麼前衛封裝，而是一個 Google 自己默默做了六年的東西：光路交換（Optical Circuit Switch，OCS）。 Virgo 是 Google 隨第八代 TPU 8t 一起推出的 scale-out 資料中心 fabric。單一 fabric 可連 13.4 萬顆 TPU、47 Pb/s 非阻塞雙向頻寬，再靠 Pathways 把多張 fabric 拼成超過 100 萬顆 TPU 的邏輯訓練集群。它對光通訊供應鏈最關鍵的訊號是：受惠的是「海量可插拔光模組 + 自研 OCS」，CPO 這一局還沒輪到上場。

1. 百萬卡訓練真正卡住的，從來不是算力

訓練一個前沿模型，瓶頸早就不在單顆晶片夠不夠快。當你要把幾萬顆加速器同時餵飽、讓它們像一顆晶片一樣同步運算，問題會變成一個很樸素的工程題：晶片跟晶片之間的資料，到底要繞幾層交換機、走幾跳（hop）、塞不塞得下、會不會某一顆壞了就拖垮全場。

這就是「scale-out」要解的事。它跟「scale-up」是兩件事，市場常常混為一談：scale-up 是在一個 pod 內部、用超高頻寬把鄰近晶片黏成一個大記憶體域（TPU 走的是 ICI、GPU 走的是 NVLink）；scale-out 則是橫向把一個個 pod、一座座機房串成一個邏輯集群。Virgo 管的，是後者。

Google 之所以要為 TPU 8t 另起一張新網路，是因為新晶片的胃口大到舊網路餵不動——Virgo 把每顆加速器的資料中心網路（DCN）頻寬一口氣拉到上一代的 4 倍。網路不升級，再強的晶片也只是被網路餓著。

2. Virgo 是什麼：把網路「壓扁」的一張 fabric

用一句話說：Virgo 是一張扁平、兩層、非阻塞（non-blocking）的網路。

Virgo 採扁平兩層非阻塞拓樸，把網路層數壓到最低以降延遲。圖片來源：Google Cloud Blog — Introducing Virgo megascale data center fabric

傳統資料中心網路像一棟很多層的大樓，封包要上上下下爬好幾層樓梯才能到對面。Virgo 換成 high-radix（高基數）交換機——簡單講就是「每台交換機的孔位變多」，一台能接的對象變多，於是整張網路需要的樓層就變少。樓層少，延遲自然低：Virgo 的 unloaded fabric latency 比上一代低了 40%。對動輒同步上萬顆晶片的訓練任務來說，延遲的「可預測性」比峰值頻寬更值錢。

它還是 multi-planar（多平面）設計，把網路切成多個彼此獨立的控制域。白話說，就是不要把雞蛋放同一個籃子——一個平面出事，不會整張網拖下水。

3. 三個你該背起來的數字

13.4 萬顆 TPU／單一 fabric。一張 Virgo fabric 可以連超過 134,000 顆 TPU 8t。（順帶更正一個常見口誤：是 134K，不是 13,440，這兩個差一個量級。）再往上，靠 Pathways／JAX 軟體棧，可以把多張 fabric 跨資料中心拼成超過 100 萬顆 TPU 的單一邏輯集群。

47 Pb/s 非阻塞雙向頻寬。「非阻塞」是重點——意思是理論上任意一半晶片要跟另一半全速對打，網路都塞得下、不會打架。這是衡量一張訓練網路「夠不夠格」的硬指標。

7 跳（從 16 跳砍到 7）。透過 OCS 把最多 36 個 group（每個 group 最多 1,024 顆 active chip）串成一個完整 pod，任意兩顆晶片之間最多只要 7 跳就能溝通，比舊架構的 16 跳少了 56%。跳數，就是延遲與故障風險的直接來源。

一個要小心的數字：算力規格各家寫法不一（有 1.6M ExaFlops，也有寫 1.7K ExaFlops 的），很可能是精度（FP8 vs BF16）或「整 fabric vs 單 pod」口徑不同。對外引用前最好把精度標清楚，別丟一個裸數字。

4. 真正的暗線，是 Apollo OCS

Virgo 的新聞稿把鎂光燈打在頻寬和拓樸上，但可以看的是底下那條暗線：光路交換。

OCS 不是把光轉成電再交換，而是直接用 MEMS 微鏡把一束光「打」到另一個出口——光進、光出，中間不落地成電。它的價值有兩個：一是省掉大量光電轉換的能耗與延遲；二是當某顆晶片或某個機櫃壞掉，OCS 可以自動重組光路繞過故障，全程不需要人工介入。對一個要連續跑好幾週、上百萬顆晶片的訓練任務，「壞了能自己繞過去」這件事，等於把整機櫃級的故障在網路層就吃掉，有效算力不會被尾延遲拖垮。

關鍵在於，這套 OCS（Google 內部代號 Apollo）是自研、不外採。從 2020 年的 TPU v4 開始，OCS 就一直是 Google 資料中心相對於 Nvidia／Broadcom（NVLink + Ethernet/InfiniBand）體系最難被對標的結構性差異。Virgo 不是這條路的轉彎，而是它的延伸與放大。

5. 對光供應鏈：受惠的是模組與上游，不是 CPO

很多人一看到「光交換、百萬卡」就直覺聯想 CPO。但 Virgo 的架構恰恰相反——high-radix 扁平拓樸要餵的是海量的 800G／1.6T 可插拔光模組，加上 Google 自研的 OCS 光開關（MEMS 微鏡 + 環形器 + 波長選擇開關 WSS）。也就是說，這一代真正吃量的，是光模組本體與其上游：EML／DML 雷射、DSP、各式光器件。CPO 仍然站在門外。

而且 Apollo 是 Google 自研，對第三方 OCS 廠商而言，它帶來的是「示範效應」而非「直接訂單」——它證明了光交換在資料中心規模可行，但訂單未必落到外部供應商手上。這個區別，決定了你在追蹤受惠標的時該往哪裡看。

換個角度說：市場一直在等 CPO 那位主角登場，而 Google 用 Virgo 告訴大家，在通往百萬卡的這條路上，可插拔光模組與自研 OCS 的組合，現在就已經夠用、而且更可控。

6. 風險與反面論點

別把這篇讀成 Virgo 無敵論。幾個該保留的問號：

第一，ICI 那層還沒講清楚。Virgo 是 scale-out，但 pod 內部 scale-up 的 chip 對 chip 互連（ICI）這次官方著墨不多。如果 8t 的 pod 內互連改走 LPO／LRO，那對光元件用量的影響會是另一條完全不同的故事。

第二，47 Pb/s 與百萬卡是兩個層級。多數資料寫的是「單一資料中心內的 single fabric」，跨 DC 的百萬卡是再上一層的軟體拼接，兩者不該混著講，否則容易把規格灌水。

第三，自研＝護城河，也＝不可複製的個案。Google 能玩 OCS，是因為它從晶片到網路到軟體全垂直整合。這條路對其他雲廠（甚至對外部供應鏈）的可複製性有限，不能直接外推成整個產業的走向。

總結

Virgo Network 真正宣告的，不是「Google 又有一張更大的網」，而是一種路線選擇被驗證了：在百萬卡時代，把網路壓扁、用海量可插拔光模組鋪滿、再用自研 OCS 把故障自動繞過去，這套組合現在就跑得動。CPO 仍是未來，但 Virgo 證明它還不是現在的答案。

如果你在追光通訊的受惠線，這篇給你的行動點很清楚：先盯 800G／1.6T 光模組與其上游（EML、DSP、光器件）的拉貨節奏，把 OCS 當成「方向確認」而非「訂單來源」，並把 TPU 8t 的 ICI 互連方式列為下一個必查項目。誰餵飽了 Virgo，誰就站在這一輪 scale-out 的正確一邊。