螞蟻技術(shù)團隊近期宣布了一項重大舉措,正式向公眾開放了其最新研發(fā)的輕量級推理模型——Ring-lite。這款模型在多個推理評測中取得了卓越表現(xiàn),彰顯了MoE(混合專家)架構(gòu)在推理任務(wù)中的巨大潛力。
Ring-lite是在螞蟻技術(shù)團隊先前推出的Ling-lite-1.5模型的基礎(chǔ)上進一步優(yōu)化而來。Ling-lite-1.5采用了MoE架構(gòu),總參數(shù)達到168億,但有效激活參數(shù)僅為27.5億。而Ring-lite通過引入獨創(chuàng)的C3PO強化學(xué)習(xí)訓(xùn)練方法,成功提升了模型性能,在AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等多個推理評測中均名列前茅,其表現(xiàn)甚至超越了參數(shù)規(guī)模為其三倍以下的Dense模型。
在技術(shù)創(chuàng)新方面,Ring-lite團隊實現(xiàn)了多項突破。他們首創(chuàng)的C3PO強化學(xué)習(xí)訓(xùn)練方法有效解決了回復(fù)長度波動帶來的訓(xùn)練難題,顯著提高了訓(xùn)練的穩(wěn)定性和效率。團隊還深入探討了Long-CoT SFT與RL訓(xùn)練的最佳比例,通過引入基于entropy loss的訓(xùn)練策略,平衡了訓(xùn)練效果和樣本效率,進一步提升了模型的整體性能。
Ring-lite還解決了多領(lǐng)域數(shù)據(jù)聯(lián)合訓(xùn)練的挑戰(zhàn)。通過系統(tǒng)對比混合訓(xùn)練與分階段訓(xùn)練的優(yōu)劣,該模型在數(shù)學(xué)、代碼、科學(xué)三大領(lǐng)域?qū)崿F(xiàn)了協(xié)同提升。在復(fù)雜推理任務(wù)中,Ring-lite展現(xiàn)出了強大的性能,特別是在數(shù)學(xué)推理和編程競賽方面,其得分遠超其他對比模型。
為了驗證Ring-lite的實際應(yīng)用能力,螞蟻技術(shù)團隊還對其進行了高考數(shù)學(xué)和物理題的測試。結(jié)果顯示,Ring-lite在數(shù)學(xué)全國一卷上的得分接近130分,表現(xiàn)極為出色。
螞蟻技術(shù)團隊在開源Ring-lite時,不僅提供了模型權(quán)重和訓(xùn)練代碼,還承諾將逐步公開所有訓(xùn)練數(shù)據(jù)集、超參配置以及實驗記錄。這一舉措標(biāo)志著輕量級MoE推理模型首次實現(xiàn)了全鏈路透明化,為相關(guān)領(lǐng)域的研究人員提供了極為寶貴的參考資源。
感興趣的研究人員和開發(fā)者可以通過以下鏈接獲取Ring-lite的相關(guān)信息:
GitHub鏈接:https://github.com/inclusionAI/Ring
Hugging Face鏈接:https://huggingface.co/inclusionAI/Ring-lite
ModelScope鏈接:https://modelscope.cn/models/inclusionAI/Ring-lite






