
隨著AI技術爆發,算力中心的核心單元——高密度AI機櫃,其散熱需求已突破傳統風冷極限,技術路徑正從「風冷為主」快速邁入「液冷為主、多種技術耦合」的全新階段。作為高密集計算集群,伺服器、GPU等設備持續高負荷運轉會產生巨量熱量,當前散熱的核心目標極為明確:需高效移除晶片級700W以上、機櫃級典型30-50kW(國內已現42kW風冷、60kW液冷甚至更高密度實例)的廢熱,並力爭將能源使用效率(PUE)穩定控制在1.2以下。需說明的是,具體數據及成效視場地、氣候、設計方式而異,以下技術體系是基於行業實踐自行整理的「4級3類」立體化方案,圍繞「高效導排、精准控溫、極致節能」構建核心邏輯。
1. 晶片級:冷量直貼熱源,從源頭截流熱量
此層級的關鍵是讓冷量直接接觸發熱核心,實現熱量「源頭治理」,是整體散熱體系的基礎。
- 冷板式(Cold Plate):以金屬微水道冷板緊貼GPU/CPU頂蓋,二次側採用去離子水或乙二醇溶液導熱,一次側連接冷卻塔或冷水機組。該方案投資最低、改造成本最小,已成為當下80%液冷機櫃的成熟商用入門首選。
- 浸沒式:將伺服器整機浸泡於不導電的氟化液或合成油中,液體導熱係數比空氣高25倍,可支撐單晶片熱流密度達100W/cm²以上,節能32%以上,目前處於大規模部署驗證階段。國內中科曙光已推出搭載該技術的scaleX640超節點,單機櫃集成640張加速卡,通過30天長穩測試,可支援10萬卡級集群擴展;部分實踐中其滿負荷GPU溫度僅45℃,PUE低至1.1,核心需解決材料相容性、防漏液及運維習慣轉換問題。
- 芯內微流體:微軟最新示範的前沿研究階段技術,在矽片內部刻蝕50-200µm微通道,讓冷卻液直接流經晶體管層面,實驗中GPU溫度再降65%,當前僅處於實驗室到小批量驗證的過渡階段,尚未商業化應用。
2. 機櫃級:集中搬遷熱量,減輕機房負荷
此層級負責將晶片散出的熱量集中轉移至機櫃外部,避免機房內部熱堆積,是連接晶片與機房的關鍵中轉。
- 後門熱交換器/液冷門:在伺服器後門加裝2-4kW的風-液換熱器,可先將50%熱量轉移至一次側冷卻水系統,能與現有風冷機房共存,無需大規模改造即可將PUE降至1.3左右,是舊機房升級的成熟相容方案。
- 直接液冷機櫃:機櫃內所有伺服器均自帶冷板,無需風扇運轉,熱量通過快速接頭歧管彙總至45℃中溫水系統,運行安靜且支援單櫃60kW超高功率密度;國內浪潮資訊與能投天府雲聯合研發的42kW智算風冷算力倉,已在天府智算西南算力中心批量化工部署,節能超25%,建設週期縮短70%。
3. 機房級:中溫水系統+免費冷卻,實現極致節能
此層級通過系統化設計,利用自然冷源降低整體能耗,是將PUE壓至低位的核心環節。
- 核心採用40-45℃的中溫水系統,全年80%時間可通過冷卻塔或乾式冷卻器實現「免費冷卻」,無需啟動冷水機組,PUE可達1.05-1.15。需注意的是,新建方案力爭PUE控制在1.1以下是行業優化目標,實際達成與地區氣候、冷卻方式密切相關,多數液冷+免費冷卻方案可實現PUE顯著降低至1.2以下。
- 冷卻液分配單元(CDU)負責二次側與一次側的流體隔離、流量調配及防凝露控制,配合AI智慧調參,可將水泵與冷卻塔總功耗壓縮至IT負載的5%以內,實現「按需供冷」。
4. 餘熱回收:循環利用能源,提升整體價值
在完成散熱核心任務後,進一步挖掘廢熱價值,實現「算力-熱力」雙輸出,該技術目前處於可選推廣階段。
45℃的回水可通過熱交換再升溫至55-60℃,用於辦公樓空調製熱、員工生活熱水或驅動溴化鋰製冷機組,國外已有Aquasar將熱量用於建築暖氣的案例。
落地實踐:新舊場景的差異化路徑
- 新建AI算力中心:直接按30-50kW/櫃的典型高密度標準設計,採用「一次側全年中溫水系統+浸沒式或冷板式混合方案」,如天府智算西南算力中心、曙光超節點部署項目,已實現PUE穩定在1.1左右。
- 舊機房改造:優先選擇「後門熱交換器+局部冷板」的組合,無需改動建築結構即可將PUE從1.6降至1.35,降低改造門檻;後續再根據算力需求,逐步過渡到「全液冷+免費冷卻」的終極方案。
總結而言,高密度AI算力中心散熱已全面「液冷化」:晶片層靠冷板(成熟商用)或浸沒式(大規模部署)直貼降溫,機櫃層靠中溫水集中導出,機房層靠免費冷卻節約能耗,唯有通過這種多級耦合、層層遞進的技術路徑,才能高效移除單櫃50kW以上的巨量廢熱,並長期維持PUE<1.2的行業高標準,為AI算力的持續疊代提供穩定支撐。
內文搜尋
X






























































































