AI 正在放緩——而這並非運算能力的問題
AI 的瓶頸:通訊效能遠落後於運算增長
現代 AI 模型(如 ChatGPT 或 Gemini)的規模已成長至極為龐大,以至於無法容納在單一 GPU 的記憶體中。為了訓練或運行這些模型,我們必須對其進行「切片」(Fragment),將工作負載分散至 AI 資料中心內的數千顆 GPU 上。
這使得 AI 演變成了一個網路問題。這數千顆晶片必須協同運作,宛如一個單一的「超級大腦」。一旦晶片之間的連線效能受到干擾或產生瓶頸,整台超級電腦的運作速度將隨之放緩。

訓練:打造強大「大腦」的記憶體共享挑戰
大規模 AI 模型的訓練,其核心本質是一場記憶體共享 (Memory Sharing) 的挑戰。由於數據集與模型權重過於龐大,單一晶片的視訊記憶體(VRAM)根本無法容納,因此我們必須將數千顆 GPU 的記憶體匯聚成一個巨大的共享資源池。
為了讓數據在所有 GPU 之間即時流動,我們需要極高頻寬的連線。但問題在於:伺服器面板(Faceplate)的實體空間已經耗盡,無法再插入更多達成此目標所需的電纜。一旦連線速度不夠快,GPU 就無法及時取得所需數據,導致訓練陷入停滯。
推論:核心在於高效分配工作負載

模型訓練完成後,重點將轉向成本效益 (Cost Efficiency)。運行這些模型的成本極高,因此目標是極大化每顆 GPU 的利用率——你希望處理器 100% 的時間都在運算,而不是在等待數據。
工作負載必須在晶片之間動態分配,且延遲需趨近於零。互連網路中即便只有一奈秒(Nanosecond)的延遲,都會導致昂貴的處理器處於閒置狀態。這種「無效時間」不僅白白消耗電力,卻不產生任何價值,最終推高了每一次查詢(Query)的成本。
為何不沿用更便宜的銅纜方案?
雖然銅纜在短距離傳輸表現優異,但在面對次世代的傳輸速度時,它正撞上一道「物理牆」。
-
- 距離極限: 隨著速度提升,銅纜中的訊號會迅速衰減。在高頻運作下,有效傳輸距離可能被限制在 2 公尺以內。這將您的 AI 集群侷限在單一機櫃(Rack)中;若要跨機櫃擴展,則必須使用訊號補償晶片(Signal Compensation IC)。
- 體積障礙: 為了承載高速訊號,銅纜必須做得既厚重且具備多層屏蔽。連接數千條直接附連電纜 (DAC) 不僅難以理線,更會形成一道「物理牆」阻礙散熱氣流,進而導致伺服器過熱。
