昆侖萬維在人工智能領域再次邁出重要一步,正式推出了Skywork-R1V 2.0,這一全新升級的多模態推理模型,標志著多模態思考新時代的進一步深化。自去年3月18日首次開源Skywork-R1V以來,昆侖萬維不斷深耕技術,如今,R1V 2.0的問世,無疑為行業樹立了新的技術標桿。
R1V 2.0作為當前最均衡兼顧視覺與文本推理能力的開源多模態模型,其在高考理科難題的深度推理與通用任務場景中均展現出了卓越的性能。該模型不僅在理科學科題目(數學、物理、化學)的推理上效果拔群,為用戶提供了一個免費的AI解題助手,更在38B權重和技術報告上全面開源,極大地推動了多模態生態的建設與發展。
技術上的創新是R1V 2.0的一大亮點。模型引入了多模態獎勵模型Skywork-VL Reward與混合偏好優化機制MPO,這些創新技術全面提升了模型的泛化能力。同時,選擇性樣本緩沖區機制SSB的引入,也成功突破了強化學習中“優勢消失”的瓶頸。這些技術上的突破,使得R1V 2.0在多個權威基準測試中,相較于前代R1V 1.0,在文本與視覺推理任務中均實現了顯著的性能躍升。
在MMMU測試中,R1V 2.0取得了73.6分,刷新了開源SOTA紀錄;在Olympiad Bench上,模型更是達到了62.6分,顯著領先其他開源模型。在MathVision、MMMU-PRO與MathVista等多項視覺推理榜單中,R1V 2.0也均表現出色,其多項能力已可媲美閉源商業模型,成為當前開源多模態推理模型中的佼佼者。在與開源多模態模型的對比中,R1V 2.0的視覺推理能力更是脫穎而出。

在文本推理方面,R1V 2.0同樣展現出了非凡的實力。在AIME2024和LiveCodeBench等挑戰中,模型分別取得了78.9分和63.6分,展現出了人類專家級的數學與代碼理解能力。在與專用文本推理模型的對比中,R1V 2.0同樣不落下風,其卓越的文本推理能力得到了充分驗證。
昆侖萬維團隊在R1V 2.0的開發過程中,充分吸收了全球開發者與研究者的反饋,針對模型推理能力的提升與通用能力的保持進行了深入研究。為實現多模態大模型在“深度推理”與“通用能力”之間的最佳平衡,R1V 2.0引入了全新的多模態獎勵模型Skywork-VL Reward及規則驅動的混合強化訓練機制。這一創新不僅顯著增強了模型的推理能力,更穩固了模型在多任務、多模態場景中的穩定表現與泛化能力。
Skywork-VL Reward模型的推出,為通用視覺語言模型(VLM)提供了高質量獎勵信號,精準評估了多模態推理模型長序列輸出的整體質量,同時也作為并行線上推理最優答案選擇的利器,極大地促進了多模態模型的協同發展。在視覺獎勵模型評測榜單VL-RewardBench中,Skywork-VL Reward取得了73.1的SOTA成績,同時在純文本獎勵模型評測榜單RewardBench中也斬獲了高達90.1的優異分數,全面展示了其在多模態和文本任務中的強大泛化能力。


為回饋社區和行業,昆侖萬維團隊將Skywork-VL Reward完整開源,這一舉措無疑將進一步推動多模態強化學習的發展。R1V 2.0還引入了MPO機制和基于規則的群體相對策略優化GRPO方法,通過同組候選響應之間的相對獎勵比較,引導模型學會更精準的選擇和推理路徑,進一步提升了模型的推理能力。
R1V 2.0的誕生,不僅推動了開源多模態大模型在能力邊界上的突破,更為多模態智能體的搭建提供了新的基座模型。昆侖萬維在人工智能領域的持續深耕和創新,無疑將為行業的未來發展注入更多活力與可能。






