近日,OpenAI的CEO薩姆·阿爾特曼(Sam Altman)與GPT-4.5的核心技術人員進行了一場深度對話,揭示了這款史上最昂貴模型研發(fā)過程中的諸多細節(jié)和挑戰(zhàn)。這場45分鐘的對話首次披露了GPT-4.5項目耗時嚴重超期、計算集群頻繁故障以及提升路徑難以預測等不為人知的內(nèi)幕。

GPT-4.5項目始于兩年前,是OpenAI迄今為止最為龐大的計劃,涉及數(shù)百人的團隊協(xié)作。阿爾特曼透露,為了這一項目,OpenAI幾乎是“全員上陣”。然而,研發(fā)過程中遭遇了諸多“災難性問題”。特別是當計算集群規(guī)模從1萬卡擴展到10萬卡時,隱藏的小概率、深層次故障頻繁暴露,迫使系統(tǒng)團隊不得不“邊修邊訓”。其中,一個隱藏的小bug直到訓練進度達到約40%時才被發(fā)現(xiàn)并解決。
盡管面臨重重困難,GPT-4.5的研發(fā)過程也促進了OpenAI技術棧的顯著增強。如今,OpenAI僅需5至10人即可復刻出GPT-4級別的大模型。從GPT-4到GPT-4.5的性能提升約為10倍,這種“難以量化但全方位增強的智能”讓OpenAI員工倍感意外。然而,要實現(xiàn)下一個10倍乃至百倍的性能提升,算力已不再是瓶頸,關鍵在于數(shù)據(jù)效率。
在對話中,OpenAI員工還分享了數(shù)據(jù)長尾效應與Scaling Law之間的關系、機器學習與系統(tǒng)團隊深度協(xié)同設計模式的優(yōu)勢,以及無監(jiān)督學習的本質(zhì)。他們強調(diào),未來的訓練可能涉及1000萬塊GPU規(guī)模的協(xié)作學習,這對系統(tǒng)的容錯能力提出了更高要求。
參與對話的OpenAI員工包括Alex Paino(負責GPT-4.5的預訓練機器學習算法)、Amin Tootoonchian(OpenAI首席系統(tǒng)架構師)和Daniel Selsam(研究數(shù)據(jù)效率與算法)。他們詳細解釋了GPT-4.5項目從啟動到完成的復雜過程,以及為何項目耗時遠超預期。
在談到集群規(guī)模擴展時,Amin Tootoonchian指出,10萬卡集群暴露了基礎設施的諸多隱藏問題,這些問題在小規(guī)模階段往往難以察覺。他強調(diào),盡管面臨諸多挑戰(zhàn),但團隊通過增加計算資源和不斷優(yōu)化系統(tǒng),最終成功完成了訓練。
Alex Paino則分享了GPT-4.5在性能上的顯著提升。他表示,GPT-4.5比GPT-4聰明10倍,這一成果得益于團隊在算法和數(shù)據(jù)效率方面的不斷創(chuàng)新。Daniel Selsam則強調(diào)了數(shù)據(jù)效率在未來大模型研發(fā)中的關鍵作用,認為開發(fā)出能夠利用更多算力從同樣數(shù)量的數(shù)據(jù)中學到更多知識的方法是突破的關鍵。
對話還涉及了系統(tǒng)架構的轉(zhuǎn)變。Amin Tootoonchian表示,隨著模型規(guī)模的擴大,系統(tǒng)正從單集群轉(zhuǎn)向多集群架構。這一轉(zhuǎn)變對系統(tǒng)的容錯能力提出了更高要求,需要團隊進一步優(yōu)化系統(tǒng)設計。
在談到未來時,OpenAI員工表示,他們將繼續(xù)探索數(shù)據(jù)效率和算法創(chuàng)新的可能性,以實現(xiàn)更大規(guī)模的預訓練和更強的模型智能。他們相信,隨著技術的不斷進步,未來的AI系統(tǒng)將在更多領域展現(xiàn)出驚人的能力。






