技術文章分析 | Intel 用 VCSEL 把 CPO 做到 sub-1 pJ/b：從 4×50G NRZ 到 108G PAM4 的電路全解

22小时前
讀畢需時 6 分鐘

當大家都在談矽光子（Silicon Photonics）CPO 的時候，Intel 在 CICC 2026 端出一篇反方向的論文：用便宜、低功耗的多模 VCSEL，把共封裝光學（Co-Packaged Optics，CPO）做到 2.9 pJ/b 的 4×50G NRZ 與 0.9 pJ/b 的 108G PAM4。這篇不是單一晶片的炫技，而是一份「電路技術總覽」，把 VCSEL CPO 從發射端到接收端會踩到的每一個坑攤開來講，並提出一個用兩級 2-tap 串接出 3-tap FFE 的巧招。本文逐段逐圖讀完，最後給 STT 的觀點：VCSEL 不是被矽光子淘汰的舊技術，而是短距 CPO 裡一條被低估的省電路線。

1. 論文背景：為什麼 CPO 現在從「狼來了」變成剛需

這是 Intel（Hillsboro, Oregon）團隊發表於 2026 IEEE Custom Integrated Circuits Conference (CICC) 的論文，作者群包含 Sashank Krishnamurthy、Susnata Mondal 等人。它的定位是一篇 overview，把該團隊過去散落在 ISSCC、VLSI、JSSC 的多個 VCSEL CPO 成果整合成完整敘事，並補上全新的晶上 3-tap FFE 量測。

驅動力來自一句話：大型語言模型（LLM）把資料中心逼到要拆解（disaggregate）運算與記憶體。節點間需要高頻寬、低延遲互連，但傳統電互連在超過 50 GBaud 之後會遇到牆，要上更耗電的 DSP 去等化。解法是把光引擎往 XPU/Switch 身邊搬：從可插拔光模組、到近封裝光學作為過渡，再到最終形態——共封裝光學（CPO），把光引擎和 XPU/SW 放進同一個封裝，縮短電通道、把損耗壓到最低。

這裡有個容易被忽略的分工：單模矽光子瞄準數百公尺到公里級；多模 VCSEL主打幾十公尺內、用更低功耗與成本換 CPO。這篇站的就是 VCSEL 這一邊——而 VCSEL 元件再好，沒有對應的高速電路技術也跑不快，這正是全文要補的那一塊。

2. 兩顆原型：先看清楚我們在拆什麼

第一顆是 4 通道、每通道 50 Gb/s NRZ 的 CPO 收發機（TRX），光引擎與當作 XPU 代理的電性 TX/RX IC 用封裝內 12 mm 電通道相連。發射端是 VCSEL 驅動器（VCDRV），接收端是跨阻放大器前端（TIA-FE），VCSEL/PD 陣列以打線接到封裝上。第二顆是 108 Gb/s PAM4 直驅光引擎。

兩顆在光纖耦合上選擇不同：第一顆用機械光介面（MOI），主動對準損耗低（1–3 dB）但貴、被動對準便宜但損耗高（5–6 dB）；第二顆改用直接光佈線（DOW），3D 列印聚合物波導，體積縮小 4×、高度縮小 3×，損耗約 3 dB。250 µm 間距下 32 GHz 串擾低於 −30 dB，對 64G NRZ 沒影響，但 128G PAM4 下這點串擾就足以讓眼圖明顯惡化。

3. VCSEL 與驅動器：等化才是真正的主戰場

VCSEL 是直接強度調變元件，但它的電光轉移函數是一階電性響應串接一個欠阻尼的二階複數極點（complex-pole），造成頻帶內增益與群延遲峰化。理想上要用一個複數零點（complex-zero）同時補償幅度與相位，但單一 post-cursor tap 的 FFE 只能造出實數零點。

Fig. 3 — VCSEL/CTLE 響應與從實數零點到複數零點 CTLE 的四種電路型態

核心 insight：3-tap FFE 雖能合成複數零點，但最大零點頻率被阻尼因子綁死——ζ<0.5 的典型 VCSEL，50 GBaud 下零點上限約 14.4 GHz，低於多數 VCSEL 共振頻率（>20 GHz）。Intel 的解法是 CZ-CTLE：在退化電阻上串一顆電感合成複數零點，R、L、C 可調；互補式實作把線性度提升 5× 以上，主動式版本讓最大零點頻率隨製程 fT 走、省電感面積。

Fig. 4 — 三種 Cherry-Hooper 頻寬延伸拓樸與 BWER／群延遲／增益峰化比較

寬頻放大：topology B（shunt 電感峰化）勝出，1.5× 頻寬延伸下群延遲失真 < 4 ps、增益峰化 < 0.75 dB。輸出驅動級用 CH 型驅動，相近頻寬下提供更高轉導，換到更大的光調變幅度（OMA）。

4. 接收端 TIA：跟封裝寄生效應打仗

TIA-FE IC 以覆晶接到封裝，PD 打線接上去，中間隔 0.6–0.8 mm 短互連。這條短傳輸線兩端終結不對稱（一邊打線電感 LBW 串 PD 電容 CPD，另一邊 TIA-FE 阻容），造成頻帶內巨大的群延遲失真與 ringing。

Fig. 6 — TIA-FE 封裝寄生、晶上輸入匹配網路與 NRZ／PAM4 接收前端方塊圖

設計師唯一能掌控的是晶上匹配網路：用串聯電感 LS 吸收寄生，讓 CLC π 網路近似人工傳輸線，群延遲壓到 NRZ ~8 ps、PAM4 ~5 ps。這裡還藏了線性度 vs 雜訊的取捨：VCSEL 的 RIN 隨光功率上升，SNR 最終逼近 RIN 上限，既然高功率下是光雜訊主導，他們就敢用低增益（low-RF）TIA換更好的線性度，並提早做單端轉差動（SE2D）壓低偶次失真。

5. 接收端等化與新的 3-tap FFE：把兩級 2-tap 串成一級 3-tap

low-RF TIA 配輸入峰化電感會幅度與群延遲峰化，這時實數零點 CTLE 反而幫倒忙，要用 CZ-CTLE 的群延遲凹陷去抵消。前端 3-dB 頻寬約 20 GHz，1-UI 脈衝留下一個 precursor（較強）、一個 postcursor ISI tap。第一顆 50G NRZ 用 1/4-rate 的 2-tap Cherry-Hooper FFE 補 precursor 就夠。

PAM4 容不下殘餘的 postcursor ISI，要同時補 precursor 與 postcursor，三個樣本須同時有效 1 UI、每個 hold 3 UI，這需要四相位 25/75% 工作週期時脈，非常難搞。Intel 的解法很漂亮：把一個 3-tap 等化器拆成兩級 2-tap 串接，只要 tap 強度滿足 |b₋₁b₁| < 0.25 就成立，且全程只需四相位 50% 工作週期時脈。

【請貼上 Fig. 7】圖說：Fig. 7 — 2-tap Cherry-Hooper FFE 與 25/75% 工作週期下 3-tap FFE 時序

更重要的是它指出一條可延伸到 N-tap 的路：只要 N-tap 等化多項式能因式分解成 N 個實係數的 2-tap FFE，就能用 50% 工作週期時脈疊出來，避開耗電 DSP。

6. 實測結果：兩顆原型 + 新的晶上 FFE

全部都是 22 nm FinFET CMOS。第一顆 4×50G NRZ CPO TRX：IC 面積僅 0.19/0.13 mm²；獨立 TX 跑 4×64G NRZ、OMA 前人 3 倍、能效 1.3 pJ/b（9mA），降到 5mA 可達 1.1 pJ/b；4×50G 在 7.5mA 達 0.26 UI 眼開、−6 dBm 靈敏度；無 FFE 時 50G 眼圖在 10⁻¹² 閉合；整鏈能效 2.9 pJ/b（前人 3×）；獨立 VCDRV 達 80G NRZ。

Fig. 9 — 量測設置、晶片照、64G NRZ TX 眼圖與 bathtub 曲線

第二顆 108G PAM4 直驅光引擎：VCDRV 在 128G PAM4 達外層 OMA 2.5 mW、能效 0.31 pJ/b；直驅鏈路在 108G PAM4 達 pre-FEC BER 2.4×10⁻⁴，能效 0.9 pJ/b 是已知最佳。

Fig. 10 — 晶片照、128G PAM4 VCDRV 眼圖、108G PAM4 直驅鏈路眼圖

本篇全新的東西：把串接式 3-tap FFE 真正做進晶片（22 nm FinFET）。100G PAM4 下 FFE 開啟眼寬開 > 1 ps；FFE 關閉時眼圖閉合、系統撐不過 88 Gb/s。光引擎能效 1 pJ/b，FFE 資料路徑與本地時脈各再加 0.25、0.15 pJ/b。

Fig. 11 — 100G PAM4 下 3-tap FFE 開／關的「1/4-rate」眼圖對比

7. 溫度的考驗：VCSEL CPO 真正的長期變數

Fig. 12 — VCSEL 熱量測：光輸出、歸一化電光頻率響應與跨溫輸出眼圖

三個發現：斜率效率隨基板溫度上升而下降（維持高 OMA 的主要挑戰）；頻寬隨溫度變化較緩，85°C 衰退不到 10%；VCSEL+驅動器在 56G、55°C 時眼高退化約 36%，但因複數極點特性穩定，全程不需重調等化器。換句話說，溫度傷的是「光功率」而不是「響應形狀」。

8. 總結

這篇證明 VCSEL CPO 不是技術死路，而是被矽光子聲量蓋過、但在短距低功耗場景非常能打的路線。 技術史定位三層：電路方法學整合（CZ-CTLE＋匹配網路＋low-RF TIA）、串接式 3-tap FFE（避開耗電 DSP 並可延伸 N-tap）、以及誠實面對溫度。

STT 觀點：CPO 敘事這兩年被矽光子壟斷，VCSEL 常被當成要被淘汰的舊勢力。但這篇把帳算清楚了——0.9 pJ/b 的 108G PAM4 是公開文獻裡最省電的數字之一，且 VCSEL 的成本與整合成熟度遠勝單模。在 XPU-XPU、加速器-記憶體這種「幾十公尺內、極省電、極低成本」的場景，VCSEL CPO 的性價比很難被忽視。但要冷靜看三個限制：250 µm 間距是天花板（覆晶接光仍是未來工作）、PAM4 線性度與串擾餘裕很薄、最關鍵的溫度（熱管理沒解決則量產可靠度存疑）。這篇真正的價值，在把「VCSEL CPO 要量產還差哪幾哩路」標清楚：等化、封裝、熱。

參考來源：S. Krishnamurthy, S. Mondal, J. Qiu, S. Yamada, Z. Zhou, J. Kennedy, J. Jaussi, and M. Mansuri, "50-GBaud+ VCSEL-Based Co-Packaged Optical Links: An Overview of Circuits and Systems," 2026 IEEE Custom Integrated Circuits Conference (CICC), Paper 19-1, Intel Corporation. DOI: 10.1109/CICC65509.2026.11509602.

本文為技術與產業趨勢分析，根據公開發表之 IEEE 論文整理，不構成任何投資建議。