產業洞察
CPO

AI 正在放緩——而這並非運算能力的問題

分享:

AI 的瓶頸:通訊效能遠落後於運算增長

現代 AI 模型(如 ChatGPT 或 Gemini)的規模已成長至極為龐大,以至於無法容納在單一 GPU 的記憶體中。為了訓練或運行這些模型,我們必須對其進行「切片」(Fragment),將工作負載分散至 AI 資料中心內的數千顆 GPU 上。

這使得 AI 演變成了一個網路問題。這數千顆晶片必須協同運作,宛如一個單一的「超級大腦」。一旦晶片之間的連線效能受到干擾或產生瓶頸,整台超級電腦的運作速度將隨之放緩。

 

思考 AI 資料中心的應用情境:
 

 

訓練:打造強大「大腦」的記憶體共享挑戰

大規模 AI 模型的訓練,其核心本質是一場記憶體共享 (Memory Sharing) 的挑戰。由於數據集與模型權重過於龐大,單一晶片的視訊記憶體(VRAM)根本無法容納,因此我們必須將數千顆 GPU 的記憶體匯聚成一個巨大的共享資源池。

為了讓數據在所有 GPU 之間即時流動,我們需要極高頻寬的連線。但問題在於:伺服器面板(Faceplate)的實體空間已經耗盡,無法再插入更多達成此目標所需的電纜。一旦連線速度不夠快,GPU 就無法及時取得所需數據,導致訓練陷入停滯。

 

推論:核心在於高效分配工作負載 

模型訓練完成後,重點將轉向成本效益 (Cost Efficiency)。運行這些模型的成本極高,因此目標是極大化每顆 GPU 的利用率——你希望處理器 100% 的時間都在運算,而不是在等待數據。

工作負載必須在晶片之間動態分配,且延遲需趨近於零。互連網路中即便只有一奈秒(Nanosecond)的延遲,都會導致昂貴的處理器處於閒置狀態。這種「無效時間」不僅白白消耗電力,卻不產生任何價值,最終推高了每一次查詢(Query)的成本。

 

為何不沿用更便宜的銅纜方案? 

雖然銅纜在短距離傳輸表現優異,但在面對次世代的傳輸速度時,它正撞上一道「物理牆」。

  1.  
    1. 距離極限: 隨著速度提升,銅纜中的訊號會迅速衰減。在高頻運作下,有效傳輸距離可能被限制在 2 公尺以內。這將您的 AI 集群侷限在單一機櫃(Rack)中;若要跨機櫃擴展,則必須使用訊號補償晶片(Signal Compensation IC)。
    2. 體積障礙: 為了承載高速訊號,銅纜必須做得既厚重且具備多層屏蔽。連接數千條直接附連電纜 (DAC) 不僅難以理線,更會形成一道「物理牆」阻礙散熱氣流,進而導致伺服器過熱。1-3
Language
依據歐盟施行的個人資料保護法,我們致力於保護您的個人資料並提供您對個人資料的掌握。
按一下「全部接受」,代表您允許我們置放 Cookie 來提升您在本網站上的使用體驗、協助我們分析網站效能和使用狀況,以及讓我們投放相關聯的行銷內容。您可以在下方管理 Cookie 設定。 按一下「確認」即代表您同意採用目前的設定。
管理Cookies

隱私權偏好設定中心

依據歐盟施行的個人資料保護法,我們致力於保護您的個人資料並提供您對個人資料的掌握。
按一下「全部接受」,代表您允許我們置放 Cookie 來提升您在本網站上的使用體驗、協助我們分析網站效能和使用狀況,以及讓我們投放相關聯的行銷內容。您可以在下方管理 Cookie 設定。 按一下「確認」即代表您同意採用目前的設定。

管理同意設定

必要的Cookie

一律啟用
網站運行離不開這些 Cookie 且您不能在系統中將其關閉。通常僅根據您所做出的操作(即服務請求)來設置這些 Cookie,如設置隱私偏好、登錄或填充表格。您可以將您的瀏覽器設置為阻止或向您提示這些 Cookie,但可能會導致某些網站功能無法工作。