技術文章分析 | Google 第八代 TPU 雙架構解析:TPU 8t 與 TPU 8i 如何解決 Agentic AI 的算力瓶頸
- 5月4日
- 讀畢需時 4 分鐘
前言 以前我們總想著用一顆萬能的 AI 晶片打天下,但隨著大語言模型 (LLMs) 開始往混合專家模型 (MoE) 與具備長文本推理能力的 Agentic AI 演進,Google 告訴我們:「通用架構已經撞牆了。」 當前 AI 基礎設施的最大痛點,已不僅僅是單純的矩陣運算 (FLOPs) 效能不夠,而是「資料餵不進去」以及「節點間通訊延遲太高」。為了徹底解決預訓練 (Pre-training) 與即時推理 (Serving) 截然不同的瓶頸,Google 第八代 TPU 首度走向「雙架構」分流:主攻超大規模訓練的 TPU 8t,以及專精高並發推理的 TPU 8i。本文將帶你深入剖析這兩款晶片背後硬核的架構巧思,看看科技巨頭是如何從硬體底層開刀的。
參考來源
標題:TPU 8t and TPU 8i technical deep dive
作者:Diwakar Gupta (Distinguished Engineer), Sabastian Mugazambi (Group Product Manager)
發表單位與平台:Google Cloud Blog
深度圖表分析
1. Figure 1: TPU 8t ASIC block diagram 這張圖揭示了 TPU 8t 作為「預訓練巨獸」的核心佈局。 圖中最重要的設計是保留並強化了 SparseCore。在處理龐大的 Embedding 查找時,不規則的記憶體存取往往會讓主運算單元 (MXU) 閒置。SparseCore 專門卸載這些數據依賴型操作,讓 MXU 專心做矩陣乘法。此外,圖中也點出了原生 FP4 (Native FP4) 的支援,這讓記憶體頻寬瓶頸大幅緩解,不僅將 MXU 吞吐量翻倍(峰值達 12.6 PFLOPs),同時也大幅降低了搬移龐大模型參數的功耗。

2. Figure 2: TPU 8t rack level connectivity to Virgo fabric 這張圖展示了 TPU 8t 如何將規模擴展到驚人的 134,000 顆晶片。圖中全新的 Virgo Network 是一個平坦的雙層無阻塞 (non-blocking) 拓撲,直接為大規模訓練帶來高達 4 倍的資料中心網路 (DCN) 頻寬提升。在圖表中我們可以看到,機架不僅透過高基數交換器互連,還進一步連接到 Jupiter 南北向光纖網路。這有效解決了百萬級參數叢集訓練中,因網路層級過多而導致的長尾延遲問題。

3. Figure 3: TPUDirect Storage 資料傳輸路徑對比 這是一張徹底解決「I/O 痛點」的關鍵比較圖。 上半部是傳統架構,資料必須先經過 Host CPU 與 DRAM,這在吃力龐大多模態資料集時會成為非常嚴重的瓶頸。下半部則是導入 TPUDirect Storage 的全新架構,透過 RDMA 技術,資料可以直接從 10T Lustre 高速儲存設備直達 TPU 的 HBM 記憶體(頻寬達 6,528 GB/s),完全繞過 CPU。實驗數據顯示,這讓儲存存取速度比前代 Ironwood TPU 快了整整 10 倍,確保運算核心永遠有源源不絕的資料可以算。

4. Figure 4: TPU 8i ASIC block diagram 來到專攻推理與取樣的 TPU 8i,這張圖的設計畫風與 8t 完全不同。 最大的物理亮點是 384 MB 的晶片內建 SRAM (Vmem),足足是前代的 3 倍(也遠大於 8t 的 128 MB)。在長文本 Agentic 推理時,更大的 SRAM 可以把整個龐大的 KV Cache 塞進晶片內,大幅減少核心閒置等待的時間。此外,圖中原有的 SparseCore 被全新的 CAE (Collectives Acceleration Engine) 取代。CAE 專職處理自迴歸解碼和思維鏈 (Chain-of-Thought) 所需的跨核心同步與歸約 (Reduction) 步驟,將晶片內 collective 操作的延遲狂降 5 倍。

5. Figure 5: TPU 8i hierarchical Boardfly topology 這是整篇論文在網路互連架構上最精彩的變革。 圖中展示了 TPU 8i 揚棄了傳統的 3D Torus,改採名為 Boardfly 的高基數階層式拓撲。圖解分為三個層次:4 顆晶片組成一個 Building Block、8 張板子用銅纜連成一個完全互連的 Group。重點來了,在最高層級的 Pod 結構中,36 個 Group (最高 1,024 顆晶片) 是透過 OCS (Optical Circuit Switches, 光電路交換器) 來進行互連的。這種將光通訊與 OCS 技術直接下放作為基礎互連骨幹的設計,完美證明了在 MoE 這種需要頻繁 All-to-all 跨節點通訊的場景中,傳統電交換已經無法滿足低延遲需求,光交換正式成為未來叢集擴展的核心命脈。

6. Figure 6: The Boardfly vs. torus math (最大 7 跳延遲視覺化) 這張圖用最直接的數字證明了 Boardfly 拓撲搭配 OCS 的絕對優勢。 在傳統 1024 顆晶片的 3D Torus (8x8x16) 架構中,最遠距離的節點需要跨越 (8/2) + (8/2) + (16/2) = 16 級跳躍 (hops)。而透過圖中 Boardfly 與 OCS 光電路交換的配合,網路直徑被強行壓縮到了最多只需 7 跳。這整整 56% 的跳躍數減少,直接轉化為尾部延遲的大幅降低,讓模型在動態調度不同神經網路專家 (Experts) 時,不再因為等待網路封包而嚴重卡頓。

結論 Google 第八代 TPU 的問世,不僅僅是單純的算力數字軍備競賽,更是底層基礎設施理念的重大分水嶺。TPU 8t 透過極致的 Scale-out 網路與直連儲存,確保了未來世界模型 (World Models) 所需的暴力吞吐量;而 TPU 8i 則透過超大 SRAM 與極具前瞻性的 OCS 光電路交換拓撲 (Boardfly),精準擊破了 MoE 架構下的 All-to-all 延遲痛點。 對於產業界而言,這份技術深潛明確宣示了:未來 AI 硬體的決勝點,已經從單純的邏輯運算單元,全面轉移到了「光通訊互連」與「記憶體階層」的深度優化上。
(免責聲明:本站所發表之所有技術文章僅供技術與產業趨勢分析,不構成任何形式之投資建議。)




留言