在開源大模型技術的浪潮中,“問小白”項目近期宣布了一項重大進展——正式推出了其最新的第四代開源模型XBai o4。這款模型在復雜推理能力方面取得了顯著突破,特別是在Medium模式下,其表現已經超越了OpenAI的o3-mini模型,并且在部分基準測試中,甚至優于Anthropic的Claude Opus。
XBai o4之所以能夠在復雜推理領域大放異彩,關鍵在于其獨創的“反思型生成范式”。這一創新技術結合了Long-CoT強化學習與過程評分學習,使得模型能夠像人類一樣進行多步驟的復雜思考,并且能夠在思考過程中評估和選擇最優的推理路徑。這種范式不僅提升了模型的推理深度,還顯著優化了推理鏈路的篩選效率。
XBai o4通過共享過程評分模型(PRMs)和策略模型的主干網絡,實現了過程評分推理耗時的極大降低,降幅高達99%。這一優化措施無疑為模型的實際應用提供了強有力的支持,使得XBai o4在保持高性能的同時,也能夠保持高效的運行狀態。
在性能表現方面,XBai o4同樣令人矚目。該模型提供了low、medium、high三種模式,以適應不同復雜度的任務需求。在多項關鍵基準測試中,XBai o4均展現出了卓越的推理能力。無論是在AIME24、AIME25這樣的專業測試中,還是在LiveCodeBench v5、C-eval等實際應用場景中,XBai o4都以其出色的表現贏得了廣泛的認可。
為了更好地推動開源大模型技術的發展,“問小白”項目還決定將相關的訓練和評估代碼在GitHub上開源。這一舉措不僅為AI研究社區提供了寶貴的資源,也進一步彰顯了“問小白”在開源大模型領域的領先地位。感興趣的研究人員和開發者可以通過訪問https://github.com/metaStone-AI/XBai-o4,獲取更多關于XBai o4的信息和資源。






