NVIDIA于近日宣布了一項(xiàng)重大技術(shù)創(chuàng)新,正式推出了NVIDIA Spectrum-XGS以太網(wǎng)技術(shù),這一突破性成果旨在將分散于各地的數(shù)據(jù)中心整合為一個(gè)龐大的十億瓦級(jí)AI超級(jí)工廠。
NVIDIA Spectrum-XGS以太網(wǎng)技術(shù)的核心在于其跨區(qū)域擴(kuò)展(scale-across)能力,這一特性能夠跨越地理界限,將不同城市、國(guó)家甚至大洲的數(shù)據(jù)中心緊密相連,形成一個(gè)統(tǒng)一的、高效的AI運(yùn)算網(wǎng)絡(luò)。該技術(shù)作為NVIDIA Spectrum-X以太網(wǎng)平臺(tái)的一部分,現(xiàn)已面向市場(chǎng)供應(yīng)。
即將召開(kāi)的年度芯片及系統(tǒng)架構(gòu)頂級(jí)會(huì)議Hot Chips,將聚焦AI推理和網(wǎng)絡(luò)技術(shù)。NVIDIA計(jì)劃在會(huì)議期間詳細(xì)介紹NVIDIA Spectrum-XGS以太網(wǎng),并分享其在網(wǎng)絡(luò)、數(shù)據(jù)中心機(jī)架、神經(jīng)渲染技術(shù)、NVIDIA GB10超級(jí)芯片與DGX Spark、集成硅光子學(xué)的共封裝光學(xué)器件(CPO)交換機(jī)等領(lǐng)域的最新進(jìn)展。
隨著AI技術(shù)的飛速發(fā)展,單個(gè)數(shù)據(jù)中心的功率和容量已逼近極限。為了突破這一瓶頸,NVIDIA Spectrum-XGS以太網(wǎng)技術(shù)應(yīng)運(yùn)而生。它通過(guò)引入跨區(qū)域擴(kuò)展基礎(chǔ)設(shè)施,有效解決了傳統(tǒng)商用以太網(wǎng)網(wǎng)絡(luò)基礎(chǔ)設(shè)施在高延遲、高抖動(dòng)及性能不可預(yù)測(cè)性方面的問(wèn)題。
NVIDIA創(chuàng)始人兼CEO黃仁勛表示:“AI工業(yè)革命正在加速推進(jìn),而巨型AI工廠已成為這場(chǎng)變革的核心驅(qū)動(dòng)力。繼縱向擴(kuò)展(scale-up)和橫向擴(kuò)展(scale-out)之后,跨區(qū)域擴(kuò)展(scale-across)技術(shù)的推出,標(biāo)志著我們邁入了AI計(jì)算的第三大支柱時(shí)代。NVIDIA Spectrum-XGS以太網(wǎng)技術(shù)將不同地理位置的數(shù)據(jù)中心緊密相連,共同構(gòu)建出龐大的十億瓦級(jí)AI超級(jí)工廠?!?/p>

NVIDIA Spectrum-XGS以太網(wǎng)技術(shù)完全集成于Spectrum-X平臺(tái),通過(guò)先進(jìn)的算法實(shí)現(xiàn)了網(wǎng)絡(luò)和數(shù)據(jù)中心設(shè)施間距離的動(dòng)態(tài)適配。該技術(shù)憑借自動(dòng)調(diào)節(jié)的遠(yuǎn)距離擁塞控制、精準(zhǔn)延遲管理及端到端遙測(cè)技術(shù),顯著提升了NVIDIA集合通信庫(kù)的性能,加速了多GPU和多節(jié)點(diǎn)的通信速度,確保了異地AI集群性能的可預(yù)測(cè)性。
CoreWeave等超大規(guī)模云提供商已開(kāi)始部署這一新型基礎(chǔ)設(shè)施,其中CoreWeave將成為首批采用NVIDIA Spectrum-XGS以太網(wǎng)技術(shù)連接其數(shù)據(jù)中心的企業(yè)之一。這一技術(shù)的引入,將極大地提升數(shù)據(jù)中心的運(yùn)算效率和性能。
NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)為多租戶、超大規(guī)模AI工廠提供了前所未有的帶寬密度,是傳統(tǒng)以太網(wǎng)的1.6倍。該平臺(tái)由NVIDIA Spectrum-X交換機(jī)和NVIDIA ConnectX-8 SuperNIC組成,為構(gòu)建未來(lái)AI平臺(tái)的企業(yè)提供了無(wú)縫擴(kuò)展、超低延遲和卓越性能的支持。
NVIDIA的這一系列網(wǎng)絡(luò)創(chuàng)新技術(shù),包括NVIDIA Spectrum-X和NVIDIA Quantum-X CPO網(wǎng)絡(luò)交換機(jī)等,共同將位于不同地點(diǎn)的數(shù)百萬(wàn)顆GPU整合為一個(gè)強(qiáng)大的AI工廠。這些技術(shù)不僅突破了大規(guī)模AI基礎(chǔ)設(shè)施的性能和效率極限,還降低了能耗和運(yùn)營(yíng)成本,為AI技術(shù)的未來(lái)發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。






