南京大學(xué)周志華教授的研究團(tuán)隊(duì)近期取得了一項(xiàng)突破性進(jìn)展,他們證實(shí)了大語(yǔ)言模型內(nèi)部存在著一種可挖掘的內(nèi)源性獎(jiǎng)勵(lì)機(jī)制,這一發(fā)現(xiàn)為強(qiáng)化學(xué)習(xí)的應(yīng)用開(kāi)辟了全新路徑。
在以往,強(qiáng)化學(xué)習(xí)模型,尤其是依賴(lài)于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF),往往需要龐大的高質(zhì)量人類(lèi)偏好數(shù)據(jù)集來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型。然而,這種數(shù)據(jù)集的構(gòu)建不僅費(fèi)時(shí)費(fèi)力,而且成本高昂,限制了強(qiáng)化學(xué)習(xí)的廣泛應(yīng)用。面對(duì)這一挑戰(zhàn),研究者們開(kāi)始探索新的解決方案,其中基于AI反饋的強(qiáng)化學(xué)習(xí)(RLAIF)逐漸嶄露頭角。
周志華教授團(tuán)隊(duì)的研究揭示了一個(gè)令人驚喜的現(xiàn)象:在常規(guī)的下一個(gè)Token預(yù)測(cè)訓(xùn)練中,強(qiáng)大的通用獎(jiǎng)勵(lì)模型其實(shí)已經(jīng)隱含在每一個(gè)大語(yǔ)言模型之中。他們提出的“內(nèi)源性獎(jiǎng)勵(lì)”概念,意味著無(wú)需外部評(píng)估,即可從模型內(nèi)部提取出有效的獎(jiǎng)勵(lì)機(jī)制。這一理論創(chuàng)新不僅為獎(jiǎng)勵(lì)模型的構(gòu)建提供了新的視角,還展示了如何利用這一內(nèi)源性獎(jiǎng)勵(lì)對(duì)模型進(jìn)行微調(diào),從而顯著提升其性能。
實(shí)驗(yàn)結(jié)果顯示,采用內(nèi)源性獎(jiǎng)勵(lì)進(jìn)行微調(diào)的模型,在誤差范圍內(nèi)超越了傳統(tǒng)基線(xiàn)模型,特別是在處理復(fù)雜任務(wù)時(shí),表現(xiàn)尤為突出。團(tuán)隊(duì)進(jìn)行了廣泛的驗(yàn)證實(shí)驗(yàn),均證明這一新方法在各類(lèi)測(cè)試中均優(yōu)于現(xiàn)有的獎(jiǎng)勵(lì)模型。
這一研究成果的發(fā)布,無(wú)疑為大語(yǔ)言模型的未來(lái)開(kāi)發(fā)和應(yīng)用注入了新的活力。研究人員相信,通過(guò)利用模型內(nèi)部的內(nèi)源性獎(jiǎng)勵(lì)機(jī)制,有望降低開(kāi)發(fā)成本,提高模型訓(xùn)練效率,進(jìn)一步推動(dòng)人工智能技術(shù)的廣泛應(yīng)用和發(fā)展。






