CPO

AI 正在放緩——而這並非運算能力的問題

AI 的瓶頸：通訊效能遠落後於運算增長

現代 AI 模型（如 ChatGPT 或 Gemini）的規模已成長至極為龐大，以至於無法容納在單一 GPU 的記憶體中。為了訓練或運行這些模型，我們必須對其進行「切片」（Fragment），將工作負載分散至 AI 資料中心內的數千顆 GPU 上。

這使得 AI 演變成了一個網路問題。這數千顆晶片必須協同運作，宛如一個單一的「超級大腦」。一旦晶片之間的連線效能受到干擾或產生瓶頸，整台超級電腦的運作速度將隨之放緩。

思考 AI 資料中心的應用情境：

大規模 AI 模型的訓練，其核心本質是一場記憶體共享 (Memory Sharing) 的挑戰。由於數據集與模型權重過於龐大，單一晶片的視訊記憶體（VRAM）根本無法容納，因此我們必須將數千顆 GPU 的記憶體匯聚成一個巨大的共享資源池。

為了讓數據在所有 GPU 之間即時流動，我們需要極高頻寬的連線。但問題在於：伺服器面板（Faceplate）的實體空間已經耗盡，無法再插入更多達成此目標所需的電纜。一旦連線速度不夠快，GPU 就無法及時取得所需數據，導致訓練陷入停滯。

模型訓練完成後，重點將轉向成本效益 (Cost Efficiency)。運行這些模型的成本極高，因此目標是極大化每顆 GPU 的利用率——你希望處理器 100% 的時間都在運算，而不是在等待數據。

工作負載必須在晶片之間動態分配，且延遲需趨近於零。互連網路中即便只有一奈秒（Nanosecond）的延遲，都會導致昂貴的處理器處於閒置狀態。這種「無效時間」不僅白白消耗電力，卻不產生任何價值，最終推高了每一次查詢（Query）的成本。

雖然銅纜在短距離傳輸表現優異，但在面對次世代的傳輸速度時，它正撞上一道「物理牆」。

1. 距離極限：隨著速度提升，銅纜中的訊號會迅速衰減。在高頻運作下，有效傳輸距離可能被限制在 2 公尺以內。這將您的 AI 集群侷限在單一機櫃（Rack）中；若要跨機櫃擴展，則必須使用訊號補償晶片（Signal Compensation IC）。
2. 體積障礙：為了承載高速訊號，銅纜必須做得既厚重且具備多層屏蔽。連接數千條直接附連電纜 (DAC) 不僅難以理線，更會形成一道「物理牆」阻礙散熱氣流，進而導致伺服器過熱。