亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

昆侖萬維在人工智能領(lǐng)域再度發(fā)力,于近期正式推出了其第二代獎勵模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個不同規(guī)模的模型,參數(shù)量從6億至80億不等,均基于不同的基座模型構(gòu)建。令人矚目的是,Skywork-Reward-V2系列一經(jīng)問世,便迅速在七大主流獎勵模型評測中脫穎而出,全面奪得榜首,成為開源獎勵模型領(lǐng)域的新星。

獎勵模型在強化學(xué)習(xí)從人類反饋(RLHF)的過程中扮演著核心角色。為了打造這一全新系列的獎勵模型,昆侖萬維精心構(gòu)建了一個包含4000萬對偏好對比的混合數(shù)據(jù)集Skywork-SynPref-40M。在數(shù)據(jù)處理策略上,團隊創(chuàng)新性地采用了人機協(xié)同的兩階段流程,巧妙地將人工標(biāo)注的高質(zhì)量與模型的大規(guī)模處理能力相結(jié)合。在第一階段,團隊首先構(gòu)建了一個初始的、未經(jīng)驗證的偏好池,并借助大語言模型生成輔助屬性。隨后,人工標(biāo)注者依據(jù)嚴(yán)格的協(xié)議,借助外部工具和大語言模型,對部分?jǐn)?shù)據(jù)進(jìn)行精細(xì)審核,從而構(gòu)建出一個小規(guī)模但高質(zhì)量的金標(biāo)準(zhǔn)數(shù)據(jù)集。以此為引導(dǎo),結(jié)合大語言模型,團隊進(jìn)一步生成了高質(zhì)量的銀標(biāo)準(zhǔn)數(shù)據(jù),并通過多輪迭代不斷優(yōu)化。進(jìn)入第二階段,團隊轉(zhuǎn)向自動化的大規(guī)模數(shù)據(jù)擴展,利用訓(xùn)練完成的獎勵模型執(zhí)行一致性過濾,既減輕了人工標(biāo)注的負(fù)擔(dān),又實現(xiàn)了偏好數(shù)據(jù)規(guī)模與質(zhì)量的完美平衡。

基于這一優(yōu)質(zhì)的混合偏好數(shù)據(jù),Skywork-Reward-V2系列展現(xiàn)出了廣泛的適用性和卓越的能力。它不僅在人類偏好的通用對齊、客觀正確性、安全性、風(fēng)格偏差抵抗能力以及best-of-N擴展能力等多個維度上表現(xiàn)出色,還在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流獎勵模型評估基準(zhǔn)上全面達(dá)到了當(dāng)前最優(yōu)水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B,其整體性能也幾乎達(dá)到了上一代最強模型的平均水平,而Skywork-Reward-V2-Qwen3-1.7B更是超越了當(dāng)前開源獎勵模型的最高水平。最大規(guī)模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基準(zhǔn)測試中均全面超越,成為了當(dāng)前整體表現(xiàn)最優(yōu)的開源獎勵模型。

Skywork-Reward-V2系列還具備廣泛覆蓋多維人類偏好的能力。在通用偏好評估基準(zhǔn)上,它優(yōu)于多個參數(shù)更大的模型以及最新的生成型獎勵模型;在客觀正確性評估方面,它在知識密集型任務(wù)中展現(xiàn)出了突出的表現(xiàn);在多項高級能力評估中,包括Best-of-N任務(wù)、偏見抵抗能力測試、復(fù)雜指令理解以及真實性判斷等,均取得了領(lǐng)先的成績,充分展現(xiàn)了其出色的泛化能力與實用性。

數(shù)據(jù)篩選流程的高度擴展性也顯著提升了獎勵模型的性能。經(jīng)過精細(xì)篩選和過濾的偏好數(shù)據(jù),在多輪迭代訓(xùn)練中能夠持續(xù)有效地提升模型的整體性能,特別是在第二階段的全自動數(shù)據(jù)擴展中表現(xiàn)尤為顯著。早期版本的實驗結(jié)果顯示,僅需使用1.8%的高質(zhì)量數(shù)據(jù)訓(xùn)練8B規(guī)模的模型,其性能就能超越當(dāng)前的70B級最高水平獎勵模型,這充分印證了Skywork-SynPref數(shù)據(jù)集在規(guī)模和質(zhì)量上的顯著優(yōu)勢。

對于感興趣的研究人員和開發(fā)者來說,可以通過以下鏈接獲取更多關(guān)于Skywork-Reward-V2系列的信息和資源:HuggingFace地址為https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84,GitHub地址為https://github.com/SkyworkAI/Skywork-Reward-V2。

分享到:
標(biāo)簽:發(fā)布 萬維 Skywork
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網(wǎng)站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達(dá)人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定