近期,科技界迎來了一則震撼人心的消息:Oracle公司宣布將斥資高達(dá)400億美元,從Nvidia公司采購(gòu)最新研發(fā)的GB200超級(jí)芯片,旨在強(qiáng)化與OpenAI的合作,為其提供前所未有的計(jì)算能力支持。這一舉措標(biāo)志著Oracle在人工智能領(lǐng)域的又一次重大布局。
據(jù)悉,這批超級(jí)芯片將部署在美國(guó)德克薩斯州阿比林市新建的“星門”數(shù)據(jù)中心,這是Oracle在美國(guó)的首個(gè)此類設(shè)施。GB200超級(jí)芯片在Nvidia的GTC大會(huì)上首次亮相,集成了Blackwell GPU和Grace CPU,性能卓越。每36個(gè)GB200芯片組成一個(gè)NVL72系統(tǒng),能提供每秒1.4exaFLOPS的稀疏FP4計(jì)算能力。按照規(guī)劃,Oracle將在1.2吉瓦的設(shè)施內(nèi)安裝約11000個(gè)機(jī)架系統(tǒng),整體計(jì)算能力接近16zettaFLOPs,這無(wú)疑將大幅提升其數(shù)據(jù)處理和人工智能應(yīng)用的效率。
然而,這一雄心勃勃的計(jì)劃也面臨著不小的挑戰(zhàn)。阿比林?jǐn)?shù)據(jù)中心目前的電力供應(yīng)僅為200兆瓦,遠(yuǎn)遠(yuǎn)無(wú)法滿足全部機(jī)架系統(tǒng)的運(yùn)行需求。據(jù)估算,若要充分利用這些超級(jí)芯片的潛力,至少需要1.45吉瓦的電力,其中包括電力和冷卻系統(tǒng)的損耗。這意味著,在當(dāng)前電力供應(yīng)下,數(shù)據(jù)中心僅能支持約1500個(gè)NVL72機(jī)架和54000個(gè)GB200超級(jí)芯片的運(yùn)行。
盡管面臨電力供應(yīng)的難題,Oracle與數(shù)據(jù)中心運(yùn)營(yíng)商Crusoe仍在積極尋求解決方案。他們指出,并非所有機(jī)架系統(tǒng)都會(huì)同時(shí)達(dá)到最大功耗,而且阿比林?jǐn)?shù)據(jù)中心由八棟建筑組成,Oracle不太可能將所有超級(jí)芯片集中在一個(gè)訓(xùn)練集群中。相反,他們可能會(huì)將部分芯片用于推理、合成數(shù)據(jù)生成、強(qiáng)化學(xué)習(xí)等其他工作負(fù)載,這些任務(wù)對(duì)系統(tǒng)資源的消耗相對(duì)較低。
如果Oracle和Crusoe能夠成功克服電力限制,阿比林?jǐn)?shù)據(jù)中心有望成為美國(guó)最強(qiáng)大的AI超級(jí)計(jì)算機(jī)之一,其計(jì)算能力將遠(yuǎn)超埃隆·馬斯克的Colossus超級(jí)計(jì)算機(jī)。位于田納西州的Colossus系統(tǒng)雖然配備了近800exaFLOPS的稀疏FP8計(jì)算能力,但目前仍依賴多臺(tái)天然氣渦輪機(jī)供電,尚未完全穩(wěn)定。
OpenAI的“星門”項(xiàng)目也在積極推進(jìn)國(guó)際化進(jìn)程。他們計(jì)劃與Oracle、Nvidia、Cisco等公司合作,在阿聯(lián)酋建立新的計(jì)算能力中心。這一項(xiàng)目預(yù)計(jì)將在2026年上線首個(gè)200兆瓦的電力階段,進(jìn)一步拓展全球范圍內(nèi)的人工智能計(jì)算能力。






