隨著人工智能技術(shù)的飛速發(fā)展,AI芯片的功耗與發(fā)熱問題逐漸成為制約其廣泛應(yīng)用的關(guān)鍵因素。高功耗不僅增加了企業(yè)的運(yùn)營成本,還可能引發(fā)芯片過熱、短路等風(fēng)險(xiǎn),嚴(yán)重影響AI訓(xùn)練和推理的效率和效果。因此,一場(chǎng)針對(duì)AI芯片冷卻技術(shù)的革命迫在眉睫。
近年來,全球數(shù)據(jù)量呈爆炸式增長,從2015年的10EB到預(yù)計(jì)2025年的175ZB,再到2035年可能達(dá)到的2432ZB,數(shù)據(jù)量的激增對(duì)AI芯片的算力提出了更高要求。然而,邊緣AI的發(fā)展面臨著性能、功耗和成本之間的平衡挑戰(zhàn),尤其是在電池供電的低功耗設(shè)備中。同時(shí),構(gòu)建一個(gè)涵蓋工具鏈、語言、兼容性和易開發(fā)性的統(tǒng)一生態(tài)系統(tǒng),對(duì)于推動(dòng)AI技術(shù)的普及和規(guī)模化應(yīng)用至關(guān)重要。
AI應(yīng)用如ChatGPT和大型語言模型(LLM)等,依賴于“并行計(jì)算”技術(shù),即由芯片網(wǎng)絡(luò)同時(shí)執(zhí)行多項(xiàng)計(jì)算或處理的海量計(jì)算工作。其中,GPU作為人工智能基礎(chǔ)設(shè)施的核心,擅長處理高性能并行計(jì)算工作,但其強(qiáng)大的處理能力也帶來了更高的能量輸入和熱量輸出。
以高端GPU為例,其功率密度約為CPU的四倍,這給數(shù)據(jù)中心規(guī)劃帶來了重大挑戰(zhàn)。現(xiàn)代AI數(shù)據(jù)中心所需的電源遠(yuǎn)超傳統(tǒng)數(shù)據(jù)中心,即使是亞馬遜、微軟和Alphabet等巨頭的尖端超大規(guī)模數(shù)據(jù)中心,也主要由CPU驅(qū)動(dòng)。Nvidia的A100 AI芯片功耗約為400W,而其最新微芯片H100的功耗更是高達(dá)700W,接近微波爐的功耗。若超大規(guī)模數(shù)據(jù)中心用這些GPU替換CPU服務(wù)器,所需功率將增加4-5倍,相當(dāng)于一座核電站的發(fā)電量。
功率密度的提升導(dǎo)致芯片產(chǎn)生的熱量顯著增加,對(duì)冷卻系統(tǒng)提出了更高要求。未來人工智能驅(qū)動(dòng)的數(shù)據(jù)中心將需要進(jìn)行全新設(shè)計(jì),以適應(yīng)電力和冷卻的變革。業(yè)內(nèi)專家預(yù)測(cè),我們正處于數(shù)據(jù)中心十年現(xiàn)代化升級(jí)的初期階段,旨在使其更加智能化。
為了應(yīng)對(duì)AI芯片的功耗和發(fā)熱問題,臺(tái)積電推出了3DVC(3D Vapor Chamber,三維均熱板)技術(shù)。這是一種針對(duì)高性能計(jì)算(HPC)和AI芯片的先進(jìn)散熱解決方案,旨在解決先進(jìn)制程芯片因集成度提升導(dǎo)致的功耗和發(fā)熱密度激增問題。3DVC通過立體化設(shè)計(jì),在芯片封裝內(nèi)部直接集成多層微流體通道,利用相變傳熱原理快速導(dǎo)出熱量。
相比傳統(tǒng)散熱模組中熱管與VC均溫板的分離式設(shè)計(jì),3D-VC散熱器通過將熱管延伸至VC均熱板本體中,實(shí)現(xiàn)了三維立體的熱傳導(dǎo)路徑。這使得3D-VC散熱器在應(yīng)對(duì)高功耗設(shè)備熱量時(shí)能夠接觸更多的發(fā)熱源,提供更多的散熱路徑,從而顯著提升散熱效果。
除了3DVC技術(shù)外,液冷也被認(rèn)為是高功率下唯一可行的解決方案。液冷的散熱效率遠(yuǎn)高于空氣,水的效率約為空氣的3600倍。當(dāng)芯片面積每平方厘米的散熱量超過約50瓦時(shí),通常需要采用液冷。直接芯片冷卻技術(shù)通過液體與芯片散熱器的冷板通道直接接觸來傳遞熱量,實(shí)現(xiàn)了高效散熱。
IBM采用了嵌入式微通道相變冷卻技術(shù),將介電液直接泵入芯片堆疊的微觀間隙中,通過介電液從液相沸騰到氣相來帶走芯片的熱量。測(cè)試結(jié)果表明,該技術(shù)可將芯片結(jié)溫降低25℃。
英偉達(dá)在AI硬件領(lǐng)域也取得了顯著進(jìn)展。其發(fā)布的Blackwell芯片標(biāo)志著AI硬件邁入了一個(gè)新紀(jì)元,為AI公司提供了前所未有的計(jì)算支持。基于Blackwell的AI算力以DGX GB200完整服務(wù)器形態(tài)提供給用戶,結(jié)合了36顆NVIDIA Grace CPU和72塊Blackwell GPU。為了支持GB200超級(jí)芯片的應(yīng)用,英偉達(dá)推出了全新的計(jì)算集群DGX GB200 SuperPod,采用了新型高效液冷機(jī)架規(guī)模架構(gòu),能夠在FP4精度下提供驚人的算力和內(nèi)存容量。
DGX GB200 SuperPod通過第五代NVLink連接多個(gè)計(jì)算節(jié)點(diǎn),實(shí)現(xiàn)了高速的數(shù)據(jù)傳輸和共享。例如,GB200 NVL72包含18個(gè)1U服務(wù)器,提供的FP8性能為720 petaflops,F(xiàn)P4計(jì)算性能為1440 petaflops,可處理多達(dá)27萬億個(gè)AI LLM參數(shù)模型。為了應(yīng)對(duì)功耗問題,NVIDIA采用了液冷MGX封裝和液冷機(jī)架級(jí)解決方案。
隨著AI技術(shù)的不斷發(fā)展,對(duì)AI芯片功耗和散熱問題的解決方案也將持續(xù)創(chuàng)新和完善。臺(tái)積電、IBM和英偉達(dá)等企業(yè)正在通過先進(jìn)的技術(shù)手段,為AI芯片的散熱問題提供有效的解決方案,推動(dòng)AI技術(shù)的廣泛應(yīng)用和發(fā)展。






