国产成人综合久久亚洲精品,亚洲一区二区三区电影,男女激烈试看120秒体验区

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52011
待審：79
小程序：12
文章：1184964
會員：801

昆侖萬維發(fā)布Skywork-Reward-V2獎勵模型，全面奪魁七大主流評測榜單

發(fā)布時間：2025-07-04 10:51:09 作者：網(wǎng)友整理

昆侖萬維在人工智能領(lǐng)域再度發(fā)力，于近期正式推出了其第二代獎勵模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個不同規(guī)模的模型，參數(shù)量從6億至80億不等，均基于不同的基座模型構(gòu)建。令人矚目的是，Skywork-Reward-V2系列一經(jīng)問世，便迅速在七大主流獎勵模型評測中脫穎而出，全面奪得榜首，成為開源獎勵模型領(lǐng)域的新星。

獎勵模型在強化學(xué)習(xí)從人類反饋（RLHF）的過程中扮演著核心角色。為了打造這一全新系列的獎勵模型，昆侖萬維精心構(gòu)建了一個包含4000萬對偏好對比的混合數(shù)據(jù)集Skywork-SynPref-40M。在數(shù)據(jù)處理策略上，團隊創(chuàng)新性地采用了人機協(xié)同的兩階段流程，巧妙地將人工標(biāo)注的高質(zhì)量與模型的大規(guī)模處理能力相結(jié)合。在第一階段，團隊首先構(gòu)建了一個初始的、未經(jīng)驗證的偏好池，并借助大語言模型生成輔助屬性。隨后，人工標(biāo)注者依據(jù)嚴(yán)格的協(xié)議，借助外部工具和大語言模型，對部分?jǐn)?shù)據(jù)進(jìn)行精細(xì)審核，從而構(gòu)建出一個小規(guī)模但高質(zhì)量的金標(biāo)準(zhǔn)數(shù)據(jù)集。以此為引導(dǎo)，結(jié)合大語言模型，團隊進(jìn)一步生成了高質(zhì)量的銀標(biāo)準(zhǔn)數(shù)據(jù)，并通過多輪迭代不斷優(yōu)化。進(jìn)入第二階段，團隊轉(zhuǎn)向自動化的大規(guī)模數(shù)據(jù)擴展，利用訓(xùn)練完成的獎勵模型執(zhí)行一致性過濾，既減輕了人工標(biāo)注的負(fù)擔(dān)，又實現(xiàn)了偏好數(shù)據(jù)規(guī)模與質(zhì)量的完美平衡。

基于這一優(yōu)質(zhì)的混合偏好數(shù)據(jù)，Skywork-Reward-V2系列展現(xiàn)出了廣泛的適用性和卓越的能力。它不僅在人類偏好的通用對齊、客觀正確性、安全性、風(fēng)格偏差抵抗能力以及best-of-N擴展能力等多個維度上表現(xiàn)出色，還在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流獎勵模型評估基準(zhǔn)上全面達(dá)到了當(dāng)前最優(yōu)水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B，其整體性能也幾乎達(dá)到了上一代最強模型的平均水平，而Skywork-Reward-V2-Qwen3-1.7B更是超越了當(dāng)前開源獎勵模型的最高水平。最大規(guī)模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基準(zhǔn)測試中均全面超越，成為了當(dāng)前整體表現(xiàn)最優(yōu)的開源獎勵模型。

Skywork-Reward-V2系列還具備廣泛覆蓋多維人類偏好的能力。在通用偏好評估基準(zhǔn)上，它優(yōu)于多個參數(shù)更大的模型以及最新的生成型獎勵模型；在客觀正確性評估方面，它在知識密集型任務(wù)中展現(xiàn)出了突出的表現(xiàn)；在多項高級能力評估中，包括Best-of-N任務(wù)、偏見抵抗能力測試、復(fù)雜指令理解以及真實性判斷等，均取得了領(lǐng)先的成績，充分展現(xiàn)了其出色的泛化能力與實用性。

數(shù)據(jù)篩選流程的高度擴展性也顯著提升了獎勵模型的性能。經(jīng)過精細(xì)篩選和過濾的偏好數(shù)據(jù)，在多輪迭代訓(xùn)練中能夠持續(xù)有效地提升模型的整體性能，特別是在第二階段的全自動數(shù)據(jù)擴展中表現(xiàn)尤為顯著。早期版本的實驗結(jié)果顯示，僅需使用1.8%的高質(zhì)量數(shù)據(jù)訓(xùn)練8B規(guī)模的模型，其性能就能超越當(dāng)前的70B級最高水平獎勵模型，這充分印證了Skywork-SynPref數(shù)據(jù)集在規(guī)模和質(zhì)量上的顯著優(yōu)勢。

對于感興趣的研究人員和開發(fā)者來說，可以通過以下鏈接獲取更多關(guān)于Skywork-Reward-V2系列的信息和資源：HuggingFace地址為https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84，GitHub地址為https://github.com/SkyworkAI/Skywork-Reward-V2。

分享到：

標(biāo)簽：發(fā)布萬維 Skywork