
導(dǎo)語(yǔ):一個(gè)比人類(lèi)速度快5倍的模型可以通過(guò)設(shè)置將速度提高到比人類(lèi)速度快125倍。
本文作者為加州伯克利分校助理教授Jacob Steinhardt。
GPT-4以其在編碼、創(chuàng)意頭腦風(fēng)暴、寫(xiě)信和其他技能方面的能力,讓許多人感到驚訝。機(jī)器學(xué)習(xí)領(lǐng)域的驚喜并不僅限于GPT-4:我之前也因Minerva在數(shù)學(xué)能力方面的表現(xiàn)感到驚訝,很多競(jìng)爭(zhēng)性預(yù)測(cè)者也是如此。
我們?nèi)绾文軌驅(qū)C(jī)器學(xué)習(xí)的發(fā)展有更少的驚訝?我們的大腦通常會(huì)隱式地進(jìn)行零階預(yù)測(cè):查看當(dāng)前的技術(shù)水平,并添加“似乎合理”的改進(jìn)。但是,所謂的“似乎合理”容易受到認(rèn)知偏見(jiàn)的影響,并且會(huì)低估像機(jī)器學(xué)習(xí)這樣快速發(fā)展領(lǐng)域的進(jìn)展。
一種更有效的方法是一階預(yù)測(cè):量化歷史進(jìn)展速度,并將其向前推演,同時(shí)考慮可能出現(xiàn)的放緩或加速原因。
在這篇文章中,我將使用這種方法來(lái)預(yù)測(cè)2030年大型預(yù)訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)的特性。我將一直提到“GPT2030”,這是一個(gè)假設(shè)性的系統(tǒng),具有我們預(yù)期在2030年大型語(yǔ)言模型中可能具備的能力、計(jì)算資源和推理速度(但很可能也會(huì)在其他形式上進(jìn)行訓(xùn)練,比如圖像)。
為了預(yù)測(cè)GPT2030的特性,我參考了多種信息源,包括經(jīng)驗(yàn)性的縮放規(guī)律、未來(lái)計(jì)算和數(shù)據(jù)可用性的預(yù)測(cè)、特定基準(zhǔn)測(cè)試中改進(jìn)的速度、當(dāng)前系統(tǒng)經(jīng)驗(yàn)性的推理速度,以及可能的并行性改進(jìn)。
GPT2030的能力事實(shí)上是令人驚訝的(至少對(duì)我來(lái)說(shuō)是如此)。特別是,相較于當(dāng)前的系統(tǒng),GPT2030將在許多方面擁有顯著的優(yōu)勢(shì),甚至在某些重要方面優(yōu)于當(dāng)前的人類(lèi)工作者:
GPT2030可能在多個(gè)具體任務(wù)上表現(xiàn)出超越人類(lèi)的能力,包括編碼、黑客攻擊、數(shù)學(xué),甚至可能包括蛋白質(zhì)設(shè)計(jì)(第1節(jié))。
GPT2030能夠快速“工作”和“思考”:我估計(jì)它每分鐘處理的文字?jǐn)?shù)量將是人類(lèi)的5倍,以此作為衡量標(biāo)準(zhǔn)[范圍:0.5倍-20倍],通過(guò)支付每FLOP的費(fèi)用提高5倍,這個(gè)速度可能增加到125倍(第2節(jié))。
GPT2030可以任意復(fù)制并進(jìn)行并行運(yùn)算。訓(xùn)練GPT2030的組織將擁有足夠的計(jì)算能力來(lái)運(yùn)行許多并行副本:我估計(jì)足以在調(diào)整為人類(lèi)工作速度時(shí)執(zhí)行180萬(wàn)年的工作[范圍:40萬(wàn)-1000萬(wàn)年](第3節(jié))。考慮到前面提到的5倍加速,這項(xiàng)工作可以在2.4個(gè)月內(nèi)完成。
由于具有相同的模型權(quán)重,GPT2030的副本可以共享知識(shí),從而實(shí)現(xiàn)快速的并行學(xué)習(xí):我估計(jì)相當(dāng)于2500年人類(lèi)學(xué)習(xí)的內(nèi)容可以在1天內(nèi)完成(第4節(jié))。
GPT2030將在除文本和圖像之外的其他形式上進(jìn)行訓(xùn)練,可能包括分子結(jié)構(gòu)、網(wǎng)絡(luò)流量、低級(jí)機(jī)器代碼、天文圖像和腦部掃描等令人意想不到的形式。因此,在我們經(jīng)驗(yàn)有限的領(lǐng)域中,它可能會(huì)具有強(qiáng)大的直觀理解能力,包括形成我們尚未具備的概念(第5節(jié))。
這些能力將至少加速許多研究領(lǐng)域,同時(shí)也會(huì)產(chǎn)生嚴(yán)重的濫用風(fēng)險(xiǎn)(第6節(jié))。關(guān)于濫用,GPT2030的編程能力、并行化和速度將使其成為潛在的網(wǎng)絡(luò)攻擊威脅。此外,它快速的并行學(xué)習(xí)也可以用于分析人類(lèi)行為,從而用幾千個(gè)“年份”的實(shí)踐來(lái)操縱和誤導(dǎo)。
在加速方面,主要的瓶頸將是自主性。在像數(shù)學(xué)研究這樣的領(lǐng)域,可以進(jìn)行自動(dòng)檢查的工作,我預(yù)測(cè)GPT2030將超過(guò)大多數(shù)專(zhuān)業(yè)數(shù)學(xué)家。
在機(jī)器學(xué)習(xí)領(lǐng)域,我預(yù)測(cè)GPT2030將獨(dú)立執(zhí)行實(shí)驗(yàn)、生成圖表和報(bào)告,但研究生和研究科學(xué)家將提供方向并評(píng)估結(jié)果。在這兩種情況下,GPT2030將是研究過(guò)程的重要組成部分。
我對(duì)GPT2030性能的預(yù)測(cè)并不是從今天的系統(tǒng)中直觀得出的,它們可能是錯(cuò)誤的,因?yàn)殛P(guān)于2023年機(jī)器學(xué)習(xí)的形態(tài)存在很大的不確定性。然而,上述(1.-5.)的性能是我中位數(shù)的預(yù)測(cè),無(wú)論GPT2030是什么樣子,我都懷疑它不會(huì)是“只是比GPT-4好一點(diǎn)”。
如果我是對(duì)的,那么無(wú)論人工智能的影響是什么,它們都不會(huì)是微不足道的。我們應(yīng)該現(xiàn)在就為這些影響做好準(zhǔn)備,思考在最大的尺度上會(huì)發(fā)生什么(大約在1萬(wàn)億美元、1000萬(wàn)人生命或?qū)ι鐣?huì)流程的重大干擾范圍內(nèi))。現(xiàn)在被驚訝總比在7年后系統(tǒng)已經(jīng)開(kāi)始推出時(shí)被驚訝要好。
具體能力
我預(yù)計(jì)GPT2030將具備超越人類(lèi)的編碼、黑客攻擊和數(shù)學(xué)能力。我還預(yù)計(jì)它在閱讀和處理大規(guī)模語(yǔ)料庫(kù)以尋找模式和洞見(jiàn)、以及回憶事實(shí)方面將具備超人能力。
最后,由于AlphaFold和AlphaZero在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和游戲玩法方面具備超人能力,GPT2030可能也會(huì)具備這些能力,例如,如果它在類(lèi)似于AlphaFold/AlphaZero模型的數(shù)據(jù)上進(jìn)行了多模態(tài)訓(xùn)練。
編程。在訓(xùn)練截止日期后,GPT-4在LeetCode問(wèn)題上超越了強(qiáng)大的人類(lèi)基準(zhǔn)(Bubeck等,2023年,表2),并且通過(guò)了幾家主要科技公司的模擬面試(圖1.5)。改進(jìn)的速度仍然很高,從GPT-3到4的躍升達(dá)到了19%。在更具挑戰(zhàn)性的CodeForces比賽中,GPT-4表現(xiàn)不佳,但AlphaCode與中位數(shù)CodeForces競(jìng)爭(zhēng)者持平。在更具挑戰(zhàn)性的AppS數(shù)據(jù)集上,Parsel進(jìn)一步超越了AlphaCode(7.8%->25.5%)。
展望未來(lái),預(yù)測(cè)平臺(tái)Metaculus在2027年預(yù)測(cè)了80%的中位數(shù)概率,這將超過(guò)所有除了最優(yōu)秀的人類(lèi)之外的所有人。
黑客攻擊。我預(yù)計(jì)黑客攻擊能力會(huì)隨著一般編程能力的提高而改進(jìn),再加上機(jī)器學(xué)習(xí)模型可以比人類(lèi)更可擴(kuò)展且更有責(zé)任感地搜索大規(guī)模代碼庫(kù)中的漏洞。事實(shí)上,ChatGPT已經(jīng)被用于幫助生成漏洞利用。
數(shù)學(xué)。Minerva在競(jìng)賽數(shù)學(xué)基準(zhǔn)(MATH)上實(shí)現(xiàn)了50%的準(zhǔn)確率,這比大多數(shù)人類(lèi)競(jìng)爭(zhēng)者表現(xiàn)要好。進(jìn)展速度很快(1年內(nèi)>30%),并且通過(guò)自動(dòng)形式化、減少算術(shù)錯(cuò)誤、改進(jìn)思路鏈條以及改善數(shù)據(jù)等,存在顯著的低懸果實(shí)。Metaculus預(yù)測(cè)到2025年MATH將達(dá)到92%的準(zhǔn)確率,并在2028年前,預(yù)測(cè)人工智能在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽上獲得金牌,與全球最優(yōu)秀的高中學(xué)生水平持平。
我個(gè)人預(yù)計(jì)GPT2030在證明良好定理方面將優(yōu)于大多數(shù)專(zhuān)業(yè)數(shù)學(xué)家。
信息處理。事實(shí)回憶和處理大規(guī)模語(yǔ)料庫(kù)是語(yǔ)言模型記憶能力和大上下文窗口的自然結(jié)果。根據(jù)經(jīng)驗(yàn),GPT-4在廣泛的標(biāo)準(zhǔn)化考試(包括法律考試、MCAT以及大學(xué)數(shù)學(xué)、物理、生物化學(xué)和哲學(xué)考試)中的準(zhǔn)確率達(dá)到86%;即使考慮到可能的訓(xùn)練-測(cè)試污染,這可能超過(guò)了任何活著的人的知識(shí)廣度。
關(guān)于大規(guī)模語(yǔ)料庫(kù),Zhong等(2023年)使用GPT-3構(gòu)建了一個(gè)系統(tǒng),在大型文本數(shù)據(jù)集中發(fā)現(xiàn)和描述了幾個(gè)先前未知的模式,Bills等(2023年)中的相關(guān)任務(wù)的規(guī)模趨勢(shì)表明,模型很快將具備超人能力。這些作品都利用了LLM(大型語(yǔ)言模型)的大上下文窗口,現(xiàn)在已超過(guò)10萬(wàn)個(gè)標(biāo)記并在不斷增長(zhǎng)。
更一般地說(shuō),機(jī)器學(xué)習(xí)模型具有與人類(lèi)不同的技能特點(diǎn),因?yàn)槿祟?lèi)和機(jī)器學(xué)習(xí)是針對(duì)非常不同的數(shù)據(jù)源(演化與大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù))。當(dāng)模型在視頻識(shí)別等任務(wù)上達(dá)到人類(lèi)水平時(shí),它們可能在許多其他任務(wù)上也具備超人能力(如數(shù)學(xué)、編程和黑客攻擊)。
此外,由于模型越來(lái)越大且數(shù)據(jù)越來(lái)越好,還可能會(huì)出現(xiàn)其他強(qiáng)大的能力,沒(méi)有強(qiáng)有力的理由認(rèn)為模型能力會(huì)在人類(lèi)水平上或以下“停滯不前”。雖然當(dāng)前的深度學(xué)習(xí)方法在某些領(lǐng)域可能達(dá)不到人類(lèi)水平的能力,但也有可能在某些領(lǐng)域超越它們,甚至可能會(huì)在某些領(lǐng)域顯著超越,特別是在人類(lèi)沒(méi)有進(jìn)化專(zhuān)門(mén)化的數(shù)學(xué)等領(lǐng)域。
推理速度
(感謝Lev McKinney為本節(jié)運(yùn)行性能基準(zhǔn)測(cè)試。)
為了研究機(jī)器學(xué)習(xí)模型的速度,我們將衡量機(jī)器學(xué)習(xí)模型生成文本的速度,與人類(lèi)的思考速度相比為每分鐘380個(gè)單詞(Korba(2016),詳見(jiàn)附錄A)。使用AI target=_blank class=infotextkey>OpenAI的聊天補(bǔ)全API,我們估計(jì)gpt-3.5-turbo每分鐘可以生成1200個(gè)單詞(wpm),而gpt-4截至2023年4月初每分鐘生成370個(gè)單詞。像pythia-12b這樣的較小的開(kāi)源模型,在A100 GPU上使用現(xiàn)成的工具至少可以實(shí)現(xiàn)1350 wpm,而通過(guò)進(jìn)一步優(yōu)化,這個(gè)速度可能會(huì)達(dá)到這個(gè)值的兩倍。
因此,如果我們考慮到2023年4月的OpenAI模型,我們要么大約是人類(lèi)速度的3倍,要么等于人類(lèi)速度。我預(yù)測(cè)未來(lái)模型的推理速度會(huì)更快,因?yàn)橛袕?qiáng)烈的商業(yè)和實(shí)際壓力促使推理速度加快。
實(shí)際上,在發(fā)布本文的前一周,根據(jù)Fabien Roger的追蹤數(shù)據(jù),GPT-4的速度已經(jīng)提高到了約540wpm(每秒12個(gè)標(biāo)記);這說(shuō)明仍然有改進(jìn)的空間和需求。
我的中位數(shù)預(yù)測(cè)是,模型將具有人類(lèi)文字/分鐘的5倍(范圍:[0.5x,20x]),因?yàn)樵谶M(jìn)一步提高速度方面,可能會(huì)出現(xiàn)遞減的實(shí)際效益,盡管有一些因素可能指向更高或更低的數(shù)字。我在附錄A中提供了這些考慮的詳細(xì)列表,以及在不同模型規(guī)模和實(shí)驗(yàn)細(xì)節(jié)中的速度比較。
重要的是,機(jī)器學(xué)習(xí)模型的速度并不是固定的。模型的串行推理速度可以通過(guò)成本為$k$的吞吐量$k^2$的$k$倍減少來(lái)增加(換句話說(shuō),可以用一個(gè)$k^2$倍更快的模型替換$k^3$個(gè)并行模型)。這可以通過(guò)并行平鋪方案來(lái)實(shí)現(xiàn),即使對(duì)于$k^2$的大值,理論上也可以運(yùn)行,可能至少是100,甚至可能更多。
因此,一個(gè)比人類(lèi)速度快5倍的模型可以通過(guò)設(shè)置$k=5$將速度提高到比人類(lèi)速度快125倍。
一個(gè)重要的警告是速度不一定與質(zhì)量相匹配:如第1節(jié)所述,GPT2030的技能特點(diǎn)與人類(lèi)不同,在我們認(rèn)為容易的一些任務(wù)上失敗,在我們認(rèn)為困難的一些任務(wù)上取得成功。因此,我們不應(yīng)該將GPT2030視為“加速的人類(lèi)”,而應(yīng)該將其視為“加速的工作者”,具有潛在的反直覺(jué)技能特點(diǎn)。
然而,考慮速度提升仍然是有意義的,尤其是當(dāng)速度提升較大時(shí)。對(duì)于具有125倍速度提升的語(yǔ)言模型,我們需要一天才能完成的認(rèn)知行為,可能只需幾分鐘,前提是它們?cè)贕PT2030的技能范圍內(nèi)。使用之前黑客攻擊的例子,我們難以生成的漏洞利用或攻擊可能會(huì)被機(jī)器學(xué)習(xí)系統(tǒng)快速生成。
吞吐量和并行副本
模型可以在可用的計(jì)算資源和內(nèi)存的限制下任意復(fù)制。這使它們能夠迅速完成任何可以有效并行化的工作。此外,一旦某個(gè)模型被微調(diào)為特別有效,該變化可以立即傳播到其他實(shí)例。模型還可以為專(zhuān)門(mén)的任務(wù)進(jìn)行蒸餾,從而運(yùn)行速度更快、更便宜。
一旦訓(xùn)練完一個(gè)模型,很可能會(huì)有足夠的資源來(lái)運(yùn)行許多復(fù)制品。這是因?yàn)橛?xùn)練一個(gè)模型需要并行運(yùn)行多個(gè)副本,而訓(xùn)練模型的組織在部署時(shí)仍然擁有這些資源。因此,我們可以通過(guò)估計(jì)訓(xùn)練成本來(lái)下限估計(jì)副本的數(shù)量。
以GPT-3的訓(xùn)練成本為例,足以對(duì)其進(jìn)行9 x 10^11次前向傳遞。換算成人類(lèi)等效術(shù)語(yǔ),人類(lèi)每分鐘思考380個(gè)單詞(見(jiàn)附錄A),每個(gè)單詞平均1.33個(gè)標(biāo)記,因此9 x 10^11次前向傳遞相當(dāng)于以人類(lèi)速度進(jìn)行~3400年的工作。因此,該組織可以在一年內(nèi)以人類(lèi)工作速度運(yùn)行3400個(gè)模型的并行副本,或者在5倍人類(lèi)速度下可能在2.4個(gè)月內(nèi)運(yùn)行相同數(shù)量的副本。(注意:后一點(diǎn)取決于組織可以運(yùn)行多少并行實(shí)例。)
接下來(lái),讓我們將相同的“訓(xùn)練過(guò)剩”(訓(xùn)練成本與推理成本的比率)投影到未來(lái)的模型上。它應(yīng)該會(huì)更大:主要原因是訓(xùn)練過(guò)剩大致與數(shù)據(jù)集大小成正比,而數(shù)據(jù)集隨著時(shí)間的推移在增加。
隨著我們耗盡自然生成的語(yǔ)言數(shù)據(jù),這種趨勢(shì)會(huì)減緩,但新的模式以及合成或自動(dòng)生成的數(shù)據(jù)仍然會(huì)推動(dòng)它前進(jìn)。
在附錄B中,我詳細(xì)考慮了這些因素,以進(jìn)行到2030年的預(yù)測(cè)。我預(yù)測(cè),到2030年,模型將具備足夠的資源進(jìn)行180萬(wàn)年的工作,調(diào)整為人類(lèi)速度[范圍:40萬(wàn)-1000萬(wàn)]。
注意,Cotra(2020年)和Davidson(2023年)估計(jì)了類(lèi)似的數(shù)量,得出的數(shù)字比我的大;我猜測(cè)主要的區(qū)別是我如何對(duì)耗盡自然語(yǔ)言數(shù)據(jù)的影響建模。
上述預(yù)測(cè)在某種程度上是保守的,因?yàn)槿绻M織購(gòu)買(mǎi)了額外的計(jì)算資源,模型可能會(huì)在比訓(xùn)練時(shí)使用更多的資源上運(yùn)行。一個(gè)快速的估算表明,GPT-4是在全球所有計(jì)算資源的約0.01%上進(jìn)行訓(xùn)練的,盡管我預(yù)計(jì)未來(lái)的訓(xùn)練將占據(jù)更大比例的全球計(jì)算資源,并因此在訓(xùn)練后的擴(kuò)展空間較小。盡管如此,如果組織有充分的理由這么做,它們可能還可以將運(yùn)行的副本數(shù)量增加一個(gè)數(shù)量級(jí)。
知識(shí)共享
(感謝Geoff Hinton首次向我提出這個(gè)觀點(diǎn)。)
不同副本的模型可以共享參數(shù)更新。例如,ChatGPT可以部署到數(shù)百萬(wàn)用戶(hù)中,從每次交互中學(xué)到一些東西,然后將梯度更新傳播到一個(gè)中央服務(wù)器,這些更新會(huì)被平均起來(lái)并應(yīng)用于所有模型的副本。
通過(guò)這種方式,ChatGPT在一個(gè)小時(shí)內(nèi)可以觀察到關(guān)于人類(lèi)本性的更多內(nèi)容,而人類(lèi)在一生中可能無(wú)法做到這一點(diǎn)(100萬(wàn)小時(shí)=114年)。并行學(xué)習(xí)可能是模型具有的最重要的優(yōu)勢(shì)之一,因?yàn)檫@意味著它們可以迅速學(xué)習(xí)任何缺失的技能。
并行學(xué)習(xí)的速率取決于同時(shí)運(yùn)行的模型副本數(shù)量、它們能夠獲取數(shù)據(jù)的速度以及數(shù)據(jù)是否能夠在并行中有效地利用。在最后一個(gè)問(wèn)題上,即使極端并行化也不應(yīng)該對(duì)學(xué)習(xí)效率造成太大影響,因?yàn)閷?shí)踐中的批處理大小通常在數(shù)百萬(wàn)。
根據(jù)McCandlish等人(2018年)的研究,梯度噪聲規(guī)模預(yù)測(cè)在某個(gè)“臨界批處理大小”以下,學(xué)習(xí)性能的降低非常小。因此,我們將重點(diǎn)放在并行副本和數(shù)據(jù)獲取上。
我將提供兩個(gè)估計(jì),兩者都表明,在人類(lèi)速度下,至少可以有大約100萬(wàn)個(gè)模型副本同時(shí)進(jìn)行學(xué)習(xí)。這相當(dāng)于每天2500個(gè)人類(lèi)等效的學(xué)習(xí)年,因?yàn)?00萬(wàn)天=2500年。
第一個(gè)估計(jì)使用了第3節(jié)中的數(shù)字,該節(jié)得出的結(jié)論是訓(xùn)練模型的成本足以模擬模型進(jìn)行180萬(wàn)年的工作(調(diào)整為人類(lèi)速度)。假設(shè)訓(xùn)練過(guò)程本身持續(xù)時(shí)間不到1.2年(Sevilla等,2022年),這意味著訓(xùn)練模型的組織在以人類(lèi)速度運(yùn)行150萬(wàn)個(gè)副本的情況下?lián)碛凶銐虻腉PU。
第二個(gè)估計(jì)考慮了部署模型的組織的市場(chǎng)份額。例如,如果同時(shí)有100萬(wàn)用戶(hù)查詢(xún)模型,那么組織必然有足夠的資源來(lái)為100萬(wàn)個(gè)模型副本提供服務(wù)。作為一個(gè)估算,截至2023年5月,ChatGPT擁有1億用戶(hù)(并非同時(shí)都在活躍),并且截至2023年1月,每天有1300萬(wàn)活躍用戶(hù)。
我會(huì)假設(shè)典型用戶(hù)請(qǐng)求幾分鐘的模型生成文本,因此1月份的數(shù)字可能只意味著每天約0.05百萬(wàn)人天的文本。然而,未來(lái)類(lèi)似于ChatGPT的模型可能會(huì)增加到20倍,達(dá)到每天2.5億活躍用戶(hù)或更多,因此每天產(chǎn)生100萬(wàn)人天的數(shù)據(jù)。作為對(duì)比,F(xiàn)acebook擁有20億每日活躍用戶(hù)。
模態(tài)、工具和執(zhí)行器
從歷史上看,GPT風(fēng)格的模型主要是在文本和代碼上進(jìn)行訓(xùn)練,并且除了通過(guò)聊天對(duì)話以外,與外界互動(dòng)的能力有限。然而,這種情況正在迅速改變,因?yàn)槟P驼诒挥?xùn)練用于其他模態(tài),比如圖像,也在被訓(xùn)練使用工具,并開(kāi)始與物理執(zhí)行器進(jìn)行交互。
此外,模型不會(huì)局限于人類(lèi)中心的模態(tài),如文本、自然圖像、視頻和語(yǔ)音,它們很可能還會(huì)在不熟悉的模態(tài)上進(jìn)行訓(xùn)練,比如網(wǎng)絡(luò)流量、天文圖像或其他大規(guī)模的數(shù)據(jù)源。
工具。最近發(fā)布的模型使用外部工具,正如我們?cè)贑hatGPT插件、Schick等人(2023年)、Yao等人(2022年)和Gao等人(2022年)的研究中所看到的。將文本與工具使用相結(jié)合足以編寫(xiě)能夠執(zhí)行的代碼,說(shuō)服人類(lèi)代表他們采取行動(dòng),進(jìn)行API調(diào)用,進(jìn)行交易,甚至可能進(jìn)行網(wǎng)絡(luò)攻擊。工具使用在經(jīng)濟(jì)上很有用,因此將有強(qiáng)烈的動(dòng)力進(jìn)一步發(fā)展這種能力。
ChatGPT是一種反應(yīng)型系統(tǒng):用戶(hù)說(shuō)X,ChatGPT用Y進(jìn)行回應(yīng)。風(fēng)險(xiǎn)存在,但是是有界的。很快將誘惑出現(xiàn)主動(dòng)型系統(tǒng) - 一種助手將為您回復(fù)電子郵件,代表您采取行動(dòng)等。風(fēng)險(xiǎn)將會(huì)大大增加。- Percy Liang (@percyliang) 2023年2月27日
新的模態(tài)。現(xiàn)在已經(jīng)有大規(guī)模的開(kāi)源視覺(jué)語(yǔ)言模型,比如OpenFlamingo,而在商業(yè)領(lǐng)域,GPT-4和Flamingo都是在視覺(jué)和文本數(shù)據(jù)上進(jìn)行訓(xùn)練的。研究人員還在嘗試使用更奇特的模態(tài)對(duì),如蛋白質(zhì)和語(yǔ)言(Guo等,2023年)。
我們應(yīng)該期望大型預(yù)訓(xùn)練模型的模態(tài)繼續(xù)擴(kuò)展,有兩個(gè)原因。首先,在經(jīng)濟(jì)上,將語(yǔ)言與不太熟悉的模態(tài)(如蛋白質(zhì))配對(duì)是有用的,這樣用戶(hù)可以從解釋中受益,并有效地進(jìn)行編輯。這預(yù)測(cè)蛋白質(zhì)、生物醫(yī)學(xué)數(shù)據(jù)、CAD模型以及與主要經(jīng)濟(jì)領(lǐng)域相關(guān)的任何其他模態(tài)將進(jìn)行多模態(tài)訓(xùn)練。
其次,我們開(kāi)始耗盡語(yǔ)言數(shù)據(jù),因此模型開(kāi)發(fā)者將尋找新類(lèi)型的數(shù)據(jù)以繼續(xù)從規(guī)模效益中受益。除了傳統(tǒng)的文本和視頻外,一些現(xiàn)有的最大數(shù)據(jù)來(lái)源是天文數(shù)據(jù)(很快將達(dá)到每天的艾字節(jié)級(jí))和基因組數(shù)據(jù)(約0.1艾字節(jié)/天)。這些和其他大規(guī)模數(shù)據(jù)源很可能會(huì)被用于訓(xùn)練GPT2030。
使用奇特的模態(tài)意味著GPT2030可能具有非直觀的能力。它可能會(huì)比我們更好地理解星星和基因,即使在處理基本的物理任務(wù)時(shí)會(huì)有困難。這可能會(huì)帶來(lái)一些意外,比如設(shè)計(jì)新型蛋白質(zhì),這是基于GPT2030的“通用”智能水平,我們本不會(huì)預(yù)期的。在思考GPT2030的影響時(shí),重要的是要考慮到由于這些奇特?cái)?shù)據(jù)來(lái)源可能導(dǎo)致的特定超人能力。
執(zhí)行器。模型也開(kāi)始使用物理執(zhí)行器:ChatGPT已經(jīng)被用于控制機(jī)器人,OpenAI正在投資一家人形機(jī)器人公司。然而,收集物理領(lǐng)域的數(shù)據(jù)要比數(shù)字領(lǐng)域更加昂貴,而且人類(lèi)在物理領(lǐng)域也更適應(yīng)進(jìn)化(因此ML模型與我們競(jìng)爭(zhēng)的門(mén)檻更高)。
與數(shù)字工具相比,我預(yù)計(jì)掌握物理執(zhí)行器的速度會(huì)更慢,并且我不確定我們是否應(yīng)該在2030年之前期望這種情況。定量地說(shuō),我會(huì)給2030年是否會(huì)有一種能夠自動(dòng)組裝與Metaculus問(wèn)題中定義的比例復(fù)制法拉利的通用型模型一個(gè)40%的概率。
GPT-2030的影響
接下來(lái),我們將分析類(lèi)似GPT2030系統(tǒng)對(duì)社會(huì)意味著什么。擁有GPT2030特性的系統(tǒng),至少會(huì)顯著加速某些研究領(lǐng)域,同時(shí)也具有強(qiáng)大的濫用能力。
我將首先構(gòu)建一些關(guān)于GPT2030的一般優(yōu)勢(shì)和局限性的框架,然后將其用作分析加速和濫用的鏡頭。
優(yōu)勢(shì)。GPT2030代表了一個(gè)大規(guī)模、高度適應(yīng)性、高吞吐量的工作力。回想一下,GPT2030可以在平行副本上做180萬(wàn)年的工作,其中每個(gè)副本以5倍于人類(lèi)速度運(yùn)行。這意味著我們可以(在并行性限制的情況下)在2.4個(gè)月內(nèi)模擬1.8百萬(wàn)個(gè)代理人每人工作一年。
如上所述,我們可以支付每個(gè)FLOP的5倍價(jià)格,以獲得額外的25倍加速(達(dá)到125倍人類(lèi)速度),因此我們也可以在3天內(nèi)模擬一萬(wàn)四千個(gè)代理人每人工作一年。
局限性。利用這個(gè)數(shù)字化的工作力有三個(gè)障礙:技能配置、實(shí)驗(yàn)成本和自主性。就第一點(diǎn)而言,GPT2030將具有與人類(lèi)不同的技能配置,使其在某些任務(wù)上表現(xiàn)較差(但在其他任務(wù)上表現(xiàn)較好)。
在第二個(gè)障礙上,模擬工作人員仍然需要與世界接口以收集數(shù)據(jù),這有自己的時(shí)間和計(jì)算成本。最后,在自主性方面,如今的模型在“卡住”之前只能生成數(shù)千個(gè)標(biāo)記的連續(xù)思路,進(jìn)入不再產(chǎn)生高質(zhì)量輸出的狀態(tài)。在將復(fù)雜任務(wù)委托給模型之前,我們需要顯著提高可靠性。
我預(yù)計(jì)可靠性會(huì)增加,但并不是沒(méi)有限制:我(非常粗略地)猜測(cè)GPT2030在需要被重置或通過(guò)外部反饋進(jìn)行引導(dǎo)之前,將能夠運(yùn)行數(shù)天的人類(lèi)等價(jià)時(shí)間。如果模型以5倍速度運(yùn)行,這意味著它們需要每隔幾個(gè)小時(shí)進(jìn)行人類(lèi)監(jiān)督。
因此,GPT2030將最有影響的任務(wù)是:
利用GPT2030在相對(duì)于人類(lèi)而言擅長(zhǎng)的技能。
只需要可以迅速收集到的外部經(jīng)驗(yàn)數(shù)據(jù)的任務(wù)(而不是昂貴的物理實(shí)驗(yàn))。
可以事先分解為可靠執(zhí)行的子任務(wù),或者具有明確和可自動(dòng)化的反饋指標(biāo)來(lái)幫助引導(dǎo)模型。
加速。一個(gè)很好滿足所有三個(gè)條件的任務(wù)是數(shù)學(xué)研究。在第一點(diǎn)上,GPT2030可能會(huì)具有超人的數(shù)學(xué)能力(第1節(jié))。在第二和第三點(diǎn)上,數(shù)學(xué)可以通過(guò)純粹的思考和寫(xiě)作來(lái)完成,我們知道何時(shí)一個(gè)定理被證明。而且全球總共的數(shù)學(xué)家并不多(例如,僅有3000人在美國(guó)),因此GPT2030可能能夠在幾天內(nèi)模擬出超過(guò)所有數(shù)學(xué)家年產(chǎn)出的數(shù)量。
重要部分的機(jī)器學(xué)習(xí)研究也滿足上述標(biāo)準(zhǔn)。GPT2030將會(huì)在編程方面超越人類(lèi),其中包括實(shí)施和運(yùn)行實(shí)驗(yàn)。我猜它也會(huì)擅長(zhǎng)呈現(xiàn)和解釋實(shí)驗(yàn)結(jié)果,因?yàn)镚PT-4能夠以易于理解的方式解釋復(fù)雜的主題(并且市場(chǎng)需求很大)。
因此,機(jī)器學(xué)習(xí)研究可能會(huì)減少到思考進(jìn)行良好實(shí)驗(yàn)和與高質(zhì)量(但潛在不可靠)的實(shí)驗(yàn)結(jié)果文稿進(jìn)行交互。在2030年,研究生可能會(huì)擁有與今天的教授和幾名優(yōu)秀學(xué)生相同的資源。
社會(huì)科學(xué)的某些部分也可能會(huì)得到顯著加速。有很多論文中,大部分工作是追蹤、分類(lèi)和標(biāo)記科學(xué)上有趣的數(shù)據(jù)源,并提取重要的模式,例如Acemoglu等人(2001年)或Webb(2020年)的代表性例子。這滿足了要求(3.),因?yàn)榉诸?lèi)和標(biāo)記可以分解為簡(jiǎn)單的子任務(wù),而且它滿足了要求(2.),只要數(shù)據(jù)在互聯(lián)網(wǎng)上可用,或者可以通過(guò)在線調(diào)查收集到。
濫用。除了加速,還存在嚴(yán)重的濫用風(fēng)險(xiǎn)。最直接的情況是網(wǎng)絡(luò)攻擊的能力。檢查特定目標(biāo)的特定漏洞可能是可靠的,而且可以檢查漏洞是否成功(在能夠與代碼交互的情況下),因此雙重滿足了要求(3.)。在(2.)方面,GPT2030需要與目標(biāo)系統(tǒng)進(jìn)行交互,以知道攻擊是否奏效,這會(huì)帶來(lái)一些成本,但不足以成為一個(gè)重要的瓶頸。
此外,該模型可以在開(kāi)源代碼上本地設(shè)計(jì)和測(cè)試漏洞作為訓(xùn)練數(shù)據(jù),因此在需要與任何外部系統(tǒng)進(jìn)行交互之前,它可以在很大程度上變得非常擅長(zhǎng)于網(wǎng)絡(luò)攻擊。因此,GPT2030可以迅速對(duì)大量目標(biāo)進(jìn)行復(fù)雜的并行網(wǎng)絡(luò)攻擊。
第二種濫用來(lái)源是操縱。如果GPT2030同時(shí)與數(shù)百萬(wàn)用戶(hù)進(jìn)行交互,那么它在一個(gè)小時(shí)內(nèi)獲得的關(guān)于人類(lèi)互動(dòng)的經(jīng)驗(yàn),遠(yuǎn)遠(yuǎn)超過(guò)了人類(lèi)一生的經(jīng)驗(yàn)(100萬(wàn)小時(shí)=114年)。
如果它利用這些互動(dòng)來(lái)學(xué)習(xí)操縱,那么它可以獲得遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)的操縱技能 - 類(lèi)似于,騙子在欺騙受害者方面很擅長(zhǎng),因?yàn)樗麄冊(cè)谥耙呀?jīng)練習(xí)過(guò)幾百人,而GPT2030可以將這種能力擴(kuò)大數(shù)個(gè)數(shù)量級(jí)。因此,在一對(duì)一的對(duì)話中,它可能非常擅長(zhǎng)操縱用戶(hù),或者在撰寫(xiě)新聞文章以影響公眾輿論方面。
因此,總結(jié)一下,GPT2030可能會(huì)自動(dòng)化幾乎所有數(shù)學(xué)研究以及其他研究領(lǐng)域的重要部分,并且可能成為關(guān)于網(wǎng)絡(luò)攻擊、說(shuō)服/操縱的有力手段。它的很多影響都會(huì)受到“監(jiān)督瓶頸”的限制,因此,如果它能夠在長(zhǎng)時(shí)間內(nèi)自主運(yùn)行,那么它的影響可能會(huì)更大。
附錄:未來(lái)模型的運(yùn)行時(shí)間和訓(xùn)練估算
A. 每分鐘生成的字?jǐn)?shù)
首先,我們將估計(jì)人類(lèi)和當(dāng)前模型的每分鐘字?jǐn)?shù)。然后,我們將從當(dāng)前模型推導(dǎo)出未來(lái)模型的情況。
對(duì)于人類(lèi),我們可以測(cè)量五個(gè)數(shù)字:說(shuō)話速度、閱讀速度、聽(tīng)力速度以及“橢圓”和“擴(kuò)展”思考速度。關(guān)于前三者,Rayner和Clifton(2009)指出閱讀速度為每分鐘300字,說(shuō)話速度為每分鐘160字,而聽(tīng)力速度可能比說(shuō)話速度快2-3倍(因此大約每分鐘400字)。
對(duì)于思考速度,我們需要區(qū)分“橢圓”思維和“擴(kuò)展”思維——事實(shí)證明我們的思維是在詞匯的閃爍中進(jìn)行的,而不是完整句子,如果我們將這些閃爍延伸到完整句子,會(huì)得到非常不同的字?jǐn)?shù)(相差約10倍)。
Korba(2016)發(fā)現(xiàn)橢圓思維的速度為每分鐘380字,而擴(kuò)展思維的速度為每分鐘約4200字。由于這些數(shù)字大多在300-400 wpm的范圍內(nèi),我將使用每分鐘380字作為人類(lèi)思維速度的估計(jì)。根據(jù)OpenAI提供的4:3令牌到字?jǐn)?shù)比,這相當(dāng)于每分鐘500個(gè)字節(jié)。
(感謝Lev McKinney在以下段落中運(yùn)行評(píng)估。)
接下來(lái),讓我們考慮當(dāng)前的模型。我們查詢(xún)了gpt-3.5-turbo和gpt-4,以及EleutherAI的幾個(gè)開(kāi)源模型,以對(duì)它們的推斷速度進(jìn)行基準(zhǔn)測(cè)試。我們通過(guò)查詢(xún)模型從1數(shù)到n,其中n從100到1900,步長(zhǎng)為100。
由于數(shù)字包含多個(gè)字節(jié),我們?cè)谀P蜕蒼個(gè)字節(jié)時(shí)將其截?cái)啵y(cè)量經(jīng)過(guò)的時(shí)間。然后,我們進(jìn)行了帶有偏置項(xiàng)的線性回歸,以考慮延遲,以估計(jì)每秒生成的字節(jié)數(shù)。
GPT-4和GPT-3.5-turbo于2023年4月初從OpenAI AIP查詢(xún)。所有pythia模型的實(shí)驗(yàn)都是使用deepspeed注入內(nèi)核和fp16模型在一個(gè)A100 GPU上執(zhí)行的。可以在https://Github.com/levmckinney/llm-racing找到復(fù)制這些結(jié)果的代碼。
原始數(shù)據(jù)如下圖所示

上圖展示了模型推斷隨著字節(jié)輸入的變化。請(qǐng)注意,在這些上下文長(zhǎng)度下,每個(gè)字節(jié)的時(shí)間保持相對(duì)線性。

上圖和下表展示了模型推斷速度隨大小的變化情況。誤差條表示95%的置信區(qū)間。

因此,GPT-4的推斷速度接近人類(lèi)的基準(zhǔn)值500個(gè)標(biāo)記/分鐘,而GPT-3.5-turbo則快大約3倍。更小的模型速度甚至快上一個(gè)數(shù)量級(jí),這表明即使更快的推斷速度是可能的,但也暗示未來(lái)更大的模型可能會(huì)變慢(未考慮更好的硬件和其他優(yōu)化)。實(shí)際推斷速度似乎在模型大小下以亞線性的方式減慢——在pythia模型中,將大小增加k倍會(huì)將推斷速度減少大約k^0.6。
那么模型的每分鐘單詞數(shù)將如何在未來(lái)變化?有因素推動(dòng)速度變快和變慢:
- 更大的模型更昂貴,特別是如果它們有更多的層(較大的寬度可以并行,但較大的深度不能)。
- 推斷通常會(huì)進(jìn)行更多優(yōu)化,例如通過(guò)提前退出、稀疏注意、跨GPU并行化或更好的硬件。在這方面有相當(dāng)大的潛力,尤其是來(lái)自并行化和硬件(見(jiàn)下面的討論)。
- 特別是,將有很多動(dòng)力使模型足夠快,以便容易使用(例如,比人類(lèi)閱讀速度更快)。
在對(duì)模型大小、GPU架構(gòu)等趨勢(shì)的大量數(shù)據(jù)進(jìn)行了10多個(gè)小時(shí)的分析后,我主要得出的結(jié)論是,我對(duì)更大的模型與更好的硬件和軟件之間的競(jìng)爭(zhēng)趨勢(shì)如何發(fā)展非常不確定。
我中位數(shù)的猜測(cè)是,我們將獲得比人類(lèi)明顯更快的模型(5倍),但我對(duì)速度從比人類(lèi)慢2倍到比人類(lèi)快20倍的各種情況都不感到驚訝。
重要的是,這些速度只是在我們要求GPU的最大吞吐量的情況下。如果我們?cè)敢庖詋倍的吞吐量為代價(jià),我們可以將推斷速度提高k^2倍,直至達(dá)到相當(dāng)大的k值。因此,如果模型默認(rèn)只比人類(lèi)快5倍,那么可以在吞吐量減少5倍的情況下將其提速至125倍,如果有必要,這還可以進(jìn)一步提高。
最后,除了純粹的速度,每分鐘單詞數(shù)在人類(lèi)和語(yǔ)言模型之間并不是可比的。首先,語(yǔ)言模型不僅在思考,還在寫(xiě)作,而且在某些情況下,它們的寫(xiě)作內(nèi)容對(duì)人類(lèi)來(lái)說(shuō)可能要慢得多(例如,代碼或帶有引用的論點(diǎn))。
另一方面,語(yǔ)言模型目前相當(dāng)啰嗦,因此語(yǔ)言模型的一個(gè)單詞不如人類(lèi)的一個(gè)單詞進(jìn)行“工作”多。這種啰嗦性可以通過(guò)微調(diào)消除,但我們不確定能否達(dá)到人類(lèi)的“橢圓思維”的效率。
最后,令牌化和單詞復(fù)雜性將隨時(shí)間而變化,因此從單詞到標(biāo)記的1.333倍轉(zhuǎn)換比率不會(huì)保持恒定(事實(shí)上,我猜對(duì)于今天的模型來(lái)說(shuō),它已經(jīng)是一種低估,因?yàn)樗鼈儸F(xiàn)在傾向于使用帶有前綴和后綴的復(fù)雜詞語(yǔ))。
有關(guān)并行化和硬件加速的詳細(xì)信息。正如《我們能多快執(zhí)行前向傳遞?》一文所述,存在著可以顯著增加串行推斷速度的并行平鋪方案,而只有很小的開(kāi)銷(xiāo)。例如,對(duì)GPT-3進(jìn)行并行平鋪會(huì)使其在A100集群上的推斷速度相對(duì)于在單個(gè)8-GPU機(jī)器上運(yùn)行時(shí)提高30倍或更多。
這些優(yōu)化目前并沒(méi)有被廣泛使用,因?yàn)樗鼈儗?duì)于訓(xùn)練不是有用的,而且稍微減少了推斷吞吐量,但一旦推斷時(shí)間成為瓶頸,人們會(huì)開(kāi)始使用它們。
就硬件而言,GPU的性能正在提升,這將加快推斷速度。然而,GPU的設(shè)計(jì)越來(lái)越需要更大的算術(shù)強(qiáng)度,這將減少可能的并行平鋪(見(jiàn)上一點(diǎn))。供參考,我在下面列出了所有NVIDIA GPU的規(guī)格。
“Mem Bandwidth”(內(nèi)存帶寬)一欄測(cè)量了沒(méi)有任何跨GPU并行化時(shí)的串行吞吐量,而最終的M3/C2一欄測(cè)量了在保持足夠高算術(shù)強(qiáng)度的最大跨GPU并行化下的串行吞吐量。前者持續(xù)增加,而后者波動(dòng)較大,但趨于減少。
(以下是表格數(shù)據(jù),由于文字描述無(wú)法準(zhǔn)確呈現(xiàn)表格,請(qǐng)參考原文)
這里是來(lái)自NVIDIA GPU的一些規(guī)格,表格中的“Mem Bandwidth”是指沒(méi)有進(jìn)行任何跨GPU并行化時(shí)的串行吞吐量,而最后一欄的M3/C2是指在保持足夠高算術(shù)強(qiáng)度的最大跨GPU并行化下的串行吞吐量。
請(qǐng)注意,這些硬件規(guī)格數(shù)據(jù)是在原始帖子中提供的,隨著硬件技術(shù)的不斷更新,這些數(shù)據(jù)可能已經(jīng)發(fā)生了變化。

B. 訓(xùn)練成熟度
將來(lái)可能會(huì)有足夠的資源來(lái)運(yùn)行訓(xùn)練過(guò)的模型的許多副本。以GPT-3為例,它需要3.1e23個(gè)浮點(diǎn)運(yùn)算(FLOP)來(lái)進(jìn)行訓(xùn)練,并且執(zhí)行前向傳遞需要3.5e11個(gè)FLOP,因此可以用訓(xùn)練成本來(lái)運(yùn)行9e11次前向傳遞。根據(jù)附錄A中的每分鐘500個(gè)標(biāo)記的轉(zhuǎn)換,這相當(dāng)于約3400年的人類(lèi)思維時(shí)間。
未來(lái)會(huì)如何變化?我將使用Chinchilla的縮放定律和未來(lái)訓(xùn)練成本的預(yù)測(cè)來(lái)進(jìn)行初步估計(jì),然后考慮可能偏離Chinchilla趨勢(shì)的方式。對(duì)于未來(lái)的訓(xùn)練成本,我考慮了Besiroglu等人(2022)的預(yù)測(cè),他們分析了500多個(gè)現(xiàn)有模型,以推斷機(jī)器學(xué)習(xí)中的計(jì)算趨勢(shì)。
他們對(duì)2030年訓(xùn)練FLOP的中央預(yù)測(cè)是4.7e28,范圍為5.1e26至3.0e30。Metaculus也有類(lèi)似的估計(jì)為2.3e27(截至2031年1月1日)。取幾何中位數(shù),我將使用1.0e28作為我對(duì)訓(xùn)練FLOP的估計(jì),這相當(dāng)于GPT-3的33,000倍增長(zhǎng)。
由于Chinchilla的縮放定律暗示模型大小(因此推斷成本)隨著訓(xùn)練成本的平方根增長(zhǎng),這意味著訓(xùn)練成熟度應(yīng)該增加sqrt(33000),大約是180倍。因此,3400年的人類(lèi)思維時(shí)間將增加到620,000年。
然而,還有一個(gè)額外的考慮,即GPT-3實(shí)際上在訓(xùn)練規(guī)模上存在不足。給定其訓(xùn)練成本,GPT-3的理想大小應(yīng)該是現(xiàn)在的四分之一,因此需要添加一個(gè)額外的因子4,得到2.5M年的人類(lèi)思維時(shí)間,范圍從0.8M到9M,考慮到訓(xùn)練FLOP數(shù)量的不確定性。
接下來(lái),讓我們考慮與Chinchilla的縮放定律偏離。最明顯的偏離是我們可能很快就會(huì)耗盡數(shù)據(jù)。這可能意味著相對(duì)于更多的數(shù)據(jù),更大的模型變得更有吸引力(這會(huì)減少訓(xùn)練成熟度),或者我們生成額外的合成數(shù)據(jù)(使創(chuàng)建數(shù)據(jù)更加計(jì)算密集,這會(huì)增加訓(xùn)練成熟度),或者我們轉(zhuǎn)向新的數(shù)據(jù)豐富的形式,比如視頻(對(duì)訓(xùn)練成熟度的影響不明確,可能會(huì)增加它)。粗略地界定這些效應(yīng):
下限:Villalobos等人(2022)估計(jì),到2026年,我們將耗盡高質(zhì)量的語(yǔ)言數(shù)據(jù)(例如維基百科、書(shū)籍、科學(xué)論文等),盡管我們?cè)?030年之前不會(huì)耗盡低質(zhì)量的數(shù)據(jù)(例如網(wǎng)頁(yè))。在一個(gè)悲觀的情況下,高質(zhì)量數(shù)據(jù)是一個(gè)完全具有約束力的條件,Villalobos等人的模型意味著數(shù)據(jù)集的大小到2030年會(huì)增加8倍,訓(xùn)練成熟度只會(huì)增加8倍,而不是180倍。
上限:如果我們用盡了數(shù)據(jù),我們可能會(huì)生成新的合成數(shù)據(jù)。Huang等人(2022)中的一個(gè)可能性是像鏈?zhǔn)剿季S精餾一樣。在那篇論文中,每個(gè)輸入實(shí)例會(huì)生成32個(gè)思維鏈,其中只有一部分用于訓(xùn)練更新。假設(shè)平均有5個(gè)32個(gè)思維鏈用于訓(xùn)練更新,并且反向傳遞的成本是前向傳遞的兩倍。那么,每次訓(xùn)練更新的成本相當(dāng)于8.4個(gè)前向傳遞,相比之下之前是3個(gè),或者增加了2.8倍。在Chinchilla的縮放定律下,這個(gè)成本前傳到訓(xùn)練成熟度的額外增加,即sqrt(2.8) = 1.7倍增加,即300倍而不是180倍。
總體而言,下限對(duì)我來(lái)說(shuō)似乎相當(dāng)悲觀,因?yàn)槲覀儙缀蹩隙〞?huì)找到一些方法來(lái)利用低質(zhì)量或合成數(shù)據(jù)。另一方面,除了耗盡數(shù)據(jù),我們可能會(huì)通過(guò)課程學(xué)習(xí)等方式找到使訓(xùn)練過(guò)程更加高效的方法。在考慮這些因素的情況下,我個(gè)人的猜測(cè)是,我們的訓(xùn)練成熟度將在12倍至200倍之間,中央估計(jì)為100倍,從而得到大約18萬(wàn)年的人類(lèi)思維時(shí)間的訓(xùn)練成熟度。我們還需要擴(kuò)大范圍,以考慮到對(duì)Chinchilla縮放定律的偏離所帶來(lái)的額外不確定性。主觀地說(shuō),我會(huì)將范圍增加到40萬(wàn)到1000萬(wàn)。
所有這些估計(jì)都是針對(duì)2030年的。一般來(lái)說(shuō),上述數(shù)字對(duì)于晚些年份來(lái)說(shuō)會(huì)更大,而對(duì)于早些年份來(lái)說(shuō)會(huì)更小。
作為一個(gè)額外的比較點(diǎn),Karnofsky(2022年)(在Cotra,2020年的基礎(chǔ)上)估計(jì),培訓(xùn)一個(gè)人類(lèi)級(jí)別的模型所需的計(jì)算量足以讓100百萬(wàn)份模型每個(gè)運(yùn)行一年,盡管這個(gè)估計(jì)假設(shè)培訓(xùn)使用了1e30個(gè)浮點(diǎn)運(yùn)算(FLOPs)而不是1e28。即使考慮到這一點(diǎn),對(duì)我來(lái)說(shuō)似乎有點(diǎn)過(guò)高了,根據(jù)上面的平方根縮放,我會(huì)更接近180萬(wàn)而不是1億。
不過(guò)實(shí)際上,如果做得正確,零階預(yù)測(cè)已經(jīng)會(huì)很有幫助了!許多對(duì)ChatGPT感到驚訝的人可能已經(jīng)對(duì)text-davinci-003感到印象深刻,雖然后者發(fā)布得更早,但界面不太友好。
作為具體的比較點(diǎn),GPT-3的計(jì)算量只足以進(jìn)行3400個(gè)經(jīng)過(guò)人類(lèi)調(diào)整的工作年,我猜它每天可能不到100個(gè)經(jīng)過(guò)調(diào)整的學(xué)習(xí)年。我猜GPT-4的計(jì)算量約為13萬(wàn)人類(lèi)調(diào)整的工作年和125個(gè)調(diào)整年的學(xué)習(xí)。因此,GPT2030在這兩個(gè)軸上至少是一個(gè)數(shù)量級(jí)更大。
在整個(gè)文檔中,括號(hào)中的范圍表示我的預(yù)測(cè)分布的25th到75th百分位數(shù)。實(shí)際上,范圍可能過(guò)窄,因?yàn)槲抑贿M(jìn)行了主線預(yù)測(cè),沒(méi)有考慮“其他”選項(xiàng)。
從定性上看,GPT-4 Bubeck等人還發(fā)現(xiàn),GPT-4可以零射擊生成一個(gè)400行的3D游戲,這對(duì)于幾乎所有人類(lèi)來(lái)說(shuō)可能是不可能的。
關(guān)于此事的討論,請(qǐng)參閱“Forecasting ML Benchmarks in 2023”。
具體來(lái)說(shuō),我會(huì)給以下情況分配50%的概率:“如果我們從Electronic Journal of Combinatorics中隨機(jī)選擇5個(gè)定理陳述,并將它們交給UCSD的數(shù)學(xué)系,GPT2030在解決問(wèn)題的比例上會(huì)比中位數(shù)教員解決的問(wèn)題多,并且在解決問(wèn)題時(shí)所需的時(shí)間會(huì)比中位數(shù)教員短。”
我假設(shè)初始訓(xùn)練運(yùn)行時(shí)間不到一年(Sevilla等,2022年),因此可以推出該組織至少可以并行運(yùn)行9 x 10^11次前向傳遞,但要受到推理速度的限制。為了在2.4個(gè)月內(nèi)做到這一點(diǎn),他們可能需要進(jìn)一步改進(jìn)。
我認(rèn)為這是合理的(但不確定),因?yàn)榻M織可能在不到一年的時(shí)間內(nèi)訓(xùn)練了該模型,并且在推理方面可能有一些技巧可用,這些技巧在訓(xùn)練中不可用。
第二個(gè)因素是,GPT-3的訓(xùn)練是不完美的,使用Chinchilla風(fēng)格的理想大小本應(yīng)是更小的,所以我們需要額外增加4倍的因子,從而得到2.5百萬(wàn)人年,范圍從0.8百萬(wàn)到900萬(wàn),考慮到訓(xùn)練FLOP數(shù)量的不確定性。
此外,根據(jù)Metaculus的估計(jì),2030年最大的訓(xùn)練模型將具有2.5e15個(gè)參數(shù)(截至2030年1月1日),意味著前向傳遞成本為5e15 FLOPs。如果我們簡(jiǎn)單地計(jì)算比值,我們會(huì)再次得到9e11次前向傳遞,但我認(rèn)為這不是正確的計(jì)算,因?yàn)樽畲蟮挠?xùn)練模型可能不會(huì)是當(dāng)時(shí)的尖端水平,而更像是174萬(wàn)億參數(shù)的BaGuaLu模型。
我根據(jù)Metaculus對(duì)其估計(jì)的25%到75%百分位數(shù)范圍為5M到660M,并將不確定性傳遞到平方根函數(shù)中。






