昆侖萬維在人工智能領(lǐng)域再度發(fā)力,于近期正式推出了其第二代獎勵模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個不同規(guī)模的模型,參數(shù)量從6億至80億不等,均基于不同的基座模型構(gòu)建。令人矚目的是,Skywork-Reward-V2系列一經(jīng)問世,便迅速在七大主流獎勵模型評測中脫穎而出,全面奪得榜首,成為開源獎勵模型領(lǐng)域的新星。
獎勵模型在強化學(xué)習(xí)從人類反饋(RLHF)的過程中扮演著核心角色。為了打造這一全新系列的獎勵模型,昆侖萬維精心構(gòu)建了一個包含4000萬對偏好對比的混合數(shù)據(jù)集Skywork-SynPref-40M。在數(shù)據(jù)處理策略上,團隊創(chuàng)新性地采用了人機協(xié)同的兩階段流程,巧妙地將人工標(biāo)注的高質(zhì)量與模型的大規(guī)模處理能力相結(jié)合。在第一階段,團隊首先構(gòu)建了一個初始的、未經(jīng)驗證的偏好池,并借助大語言模型生成輔助屬性。隨后,人工標(biāo)注者依據(jù)嚴(yán)格的協(xié)議,借助外部工具和大語言模型,對部分?jǐn)?shù)據(jù)進(jìn)行精細(xì)審核,從而構(gòu)建出一個小規(guī)模但高質(zhì)量的金標(biāo)準(zhǔn)數(shù)據(jù)集。以此為引導(dǎo),結(jié)合大語言模型,團隊進(jìn)一步生成了高質(zhì)量的銀標(biāo)準(zhǔn)數(shù)據(jù),并通過多輪迭代不斷優(yōu)化。進(jìn)入第二階段,團隊轉(zhuǎn)向自動化的大規(guī)模數(shù)據(jù)擴展,利用訓(xùn)練完成的獎勵模型執(zhí)行一致性過濾,既減輕了人工標(biāo)注的負(fù)擔(dān),又實現(xiàn)了偏好數(shù)據(jù)規(guī)模與質(zhì)量的完美平衡。
基于這一優(yōu)質(zhì)的混合偏好數(shù)據(jù),Skywork-Reward-V2系列展現(xiàn)出了廣泛的適用性和卓越的能力。它不僅在人類偏好的通用對齊、客觀正確性、安全性、風(fēng)格偏差抵抗能力以及best-of-N擴展能力等多個維度上表現(xiàn)出色,還在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流獎勵模型評估基準(zhǔn)上全面達(dá)到了當(dāng)前最優(yōu)水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B,其整體性能也幾乎達(dá)到了上一代最強模型的平均水平,而Skywork-Reward-V2-Qwen3-1.7B更是超越了當(dāng)前開源獎勵模型的最高水平。最大規(guī)模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基準(zhǔn)測試中均全面超越,成為了當(dāng)前整體表現(xiàn)最優(yōu)的開源獎勵模型。
Skywork-Reward-V2系列還具備廣泛覆蓋多維人類偏好的能力。在通用偏好評估基準(zhǔn)上,它優(yōu)于多個參數(shù)更大的模型以及最新的生成型獎勵模型;在客觀正確性評估方面,它在知識密集型任務(wù)中展現(xiàn)出了突出的表現(xiàn);在多項高級能力評估中,包括Best-of-N任務(wù)、偏見抵抗能力測試、復(fù)雜指令理解以及真實性判斷等,均取得了領(lǐng)先的成績,充分展現(xiàn)了其出色的泛化能力與實用性。
數(shù)據(jù)篩選流程的高度擴展性也顯著提升了獎勵模型的性能。經(jīng)過精細(xì)篩選和過濾的偏好數(shù)據(jù),在多輪迭代訓(xùn)練中能夠持續(xù)有效地提升模型的整體性能,特別是在第二階段的全自動數(shù)據(jù)擴展中表現(xiàn)尤為顯著。早期版本的實驗結(jié)果顯示,僅需使用1.8%的高質(zhì)量數(shù)據(jù)訓(xùn)練8B規(guī)模的模型,其性能就能超越當(dāng)前的70B級最高水平獎勵模型,這充分印證了Skywork-SynPref數(shù)據(jù)集在規(guī)模和質(zhì)量上的顯著優(yōu)勢。
對于感興趣的研究人員和開發(fā)者來說,可以通過以下鏈接獲取更多關(guān)于Skywork-Reward-V2系列的信息和資源:HuggingFace地址為https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84,GitHub地址為https://github.com/SkyworkAI/Skywork-Reward-V2。






