在人工智能領(lǐng)域,模型發(fā)展的兩極分化趨勢愈發(fā)顯著。一方面,企業(yè)級應用更傾向于采用小參數(shù)模型,因其在實際應用中展現(xiàn)出高效與便捷;另一方面,通用大模型的參數(shù)規(guī)模持續(xù)攀升,已邁入萬億參數(shù)的新紀元。
MoE(Mixture of Experts)高效模型架構(gòu)的興起,成為推動大模型參數(shù)規(guī)模不斷增長的驅(qū)動力。例如,采用MoE混合專家架構(gòu)的KIMI K2開源模型,其參數(shù)量高達1.2萬億,但在推理過程中,每個Token僅需激活32B參數(shù),實現(xiàn)了高效與性能的平衡。
然而,隨著模型參數(shù)的激增,算力系統(tǒng)正面臨前所未有的挑戰(zhàn)。萬億參數(shù)模型對算力的需求極為龐大,傳統(tǒng)計算架構(gòu)難以滿足。以GPT-3為例,其1750億參數(shù)的訓練量已相當驚人,需要在2.5萬張A100 GPU上運行90-100天。而萬億參數(shù)模型的算力需求更是數(shù)十倍于此,對算力系統(tǒng)架構(gòu)提出了全新要求。
算力需求的激增不僅體現(xiàn)在訓練階段,推理階段同樣面臨巨大挑戰(zhàn)。大模型推理屬于敏感型計算,對分布式計算通信延時要求極高。MoE架構(gòu)模型在分布式訓練過程中涉及大量跨設(shè)備通信,通信時間占比高達40%,進一步加劇了算力系統(tǒng)的壓力。
為了應對這些挑戰(zhàn),企業(yè)開始探索構(gòu)建大規(guī)模Scale Up系統(tǒng)。傳統(tǒng)Scale Out集群通過增加節(jié)點數(shù)量來擴展算力,但節(jié)點間通信瓶頸在萬億參數(shù)模型訓練中被無限放大。相比之下,Scale Up系統(tǒng)通過超節(jié)點技術(shù),將數(shù)百顆AI芯片封裝為統(tǒng)一計算實體,實現(xiàn)跨節(jié)點通信性能接近節(jié)點內(nèi)水平,有效解決了算力瓶頸問題。
浪潮信息副總經(jīng)理趙帥指出,構(gòu)建具有更大顯存空間、更大高速互連域、更高算力的超節(jié)點系統(tǒng),是應對萬億模型算力挑戰(zhàn)的關(guān)鍵。浪潮信息近期發(fā)布的元腦SD200超節(jié)點AI服務器,就是這一理念的典范。該產(chǎn)品基于創(chuàng)新的多主機低延遲內(nèi)存語義通信架構(gòu),聚合64路本土GPU芯片,可單機運行1.2萬億參數(shù)Kimi K2模型,并支持多種模型同時運行和多Agent協(xié)同按需調(diào)用。
元腦SD200在硬件架構(gòu)上采用了多主機3D Mesh系統(tǒng)架構(gòu),通過Open Fabric Switch實現(xiàn)64路GPU高速互連,擁有更大的統(tǒng)一地址顯存空間。在軟件層面,元腦SD200針對3D Mesh系統(tǒng)架構(gòu)開發(fā)了一套PD分離框架,配合多層級通信機制,降低了通信時延,并保持了對多元算力的兼容性。
軟硬協(xié)同成為解決萬億參數(shù)大模型算力瓶頸的核心路徑。硬件能力的釋放需要軟件層的深度適配。例如,字節(jié)跳動COMET技術(shù)通過動態(tài)KV緩存重組,顯著降低了MoE模型的通信延遲,提升了硬件利用率。這一案例充分說明了軟件優(yōu)化在提升算力利用率方面的重要作用。
在構(gòu)建大規(guī)模Scale Up系統(tǒng)的同時,企業(yè)還需關(guān)注數(shù)據(jù)中心功耗與碳中和進程的平衡。超節(jié)點系統(tǒng)的功耗密度已達兆瓦級,軟硬協(xié)同成為破局關(guān)鍵。若軟件未適配硬件的動態(tài)功耗調(diào)節(jié),可能導致芯片長期處于高功耗狀態(tài),引發(fā)過熱降頻等問題。
萬億參數(shù)大模型的爆發(fā)式增長,正推動算力系統(tǒng)進入從“量變”到“質(zhì)變”的關(guān)鍵轉(zhuǎn)折期。面對龐大的參數(shù)規(guī)模、激增的顯存需求、復雜的通信開銷以及MoE架構(gòu)帶來的負載均衡與訓練穩(wěn)定性挑戰(zhàn),企業(yè)需要不斷創(chuàng)新硬件架構(gòu)與軟件系統(tǒng),實現(xiàn)軟硬協(xié)同,才能將超節(jié)點的算力優(yōu)勢轉(zhuǎn)化為大模型落地的實際效能。






