AI界近期迎來(lái)了一項(xiàng)由華人科研團(tuán)隊(duì)帶來(lái)的突破性進(jìn)展,他們探索了擴(kuò)散語(yǔ)言模型在Token數(shù)量受限條件下的表現(xiàn),發(fā)現(xiàn)其數(shù)據(jù)學(xué)習(xí)能力遠(yuǎn)超自回歸模型,展現(xiàn)出了三倍的優(yōu)勢(shì)。這一發(fā)現(xiàn)無(wú)疑為語(yǔ)言模型的訓(xùn)練策略開(kāi)辟了全新的視角。
這項(xiàng)研究的核心成果是一個(gè)擁有10億參數(shù)的擴(kuò)散模型,在僅使用10億Token進(jìn)行480輪訓(xùn)練后,它在HellaSwag和MMLU兩項(xiàng)基準(zhǔn)測(cè)試中分別取得了56%和33%的準(zhǔn)確率。值得注意的是,這一過(guò)程中并未采用任何特殊技巧或數(shù)據(jù)篩選方法。更令人矚目的是,即便在數(shù)據(jù)高度重復(fù)的訓(xùn)練環(huán)境中,該模型的表現(xiàn)也未出現(xiàn)飽和跡象,這顯示了其從同一數(shù)據(jù)源中提取更多有價(jià)值信息的非凡能力。
深入剖析后,研究人員指出擴(kuò)散語(yǔ)言模型之所以擁有如此強(qiáng)大的學(xué)習(xí)能力,主要得益于兩大因素。一方面,擴(kuò)散模型通過(guò)引入雙向建模和擴(kuò)散目標(biāo),打破了傳統(tǒng)自回歸模型在處理數(shù)據(jù)時(shí)面臨的因果局限,從而能夠更深入地挖掘數(shù)據(jù)中的信息。另一方面,擴(kuò)散模型在計(jì)算密度上的優(yōu)勢(shì)顯著,它在訓(xùn)練和推理階段投入更多計(jì)算資源,通過(guò)多次迭代數(shù)據(jù)優(yōu)化預(yù)測(cè),進(jìn)而提升了整體性能。
盡管擴(kuò)散模型在數(shù)據(jù)重復(fù)利用方面表現(xiàn)出一定的穩(wěn)定性,但研究團(tuán)隊(duì)也觀察到,隨著訓(xùn)練周期的增加,模型存在過(guò)擬合的風(fēng)險(xiǎn)。然而,一個(gè)令人意外的發(fā)現(xiàn)是,即便在過(guò)擬合的情況下,模型在后續(xù)任務(wù)中的表現(xiàn)并未立即下滑,有時(shí)甚至?xí)兴嵘_@背后的原因在于,驗(yàn)證損失的變化與下游任務(wù)準(zhǔn)確率之間并非總是線性相關(guān),模型在處理有限訓(xùn)練數(shù)據(jù)時(shí),可能會(huì)對(duì)某些文本片段產(chǎn)生過(guò)度自信的現(xiàn)象。
此次研究成果不僅為AI模型的訓(xùn)練策略提供了新的靈感,特別是在Token數(shù)量受限的情境下,擴(kuò)散語(yǔ)言模型的應(yīng)用潛力巨大。接下來(lái),研究團(tuán)隊(duì)計(jì)劃進(jìn)一步擴(kuò)大模型規(guī)模,并引入更多樣化的數(shù)據(jù),以期進(jìn)一步驗(yàn)證并拓展這些令人振奮的發(fā)現(xiàn)。






