小米近期在人工智能領(lǐng)域邁出了重要一步,宣布開源其首個(gè)推理大模型——Xiaomi MiMo。這一消息不僅引起了業(yè)界的廣泛關(guān)注,也彰顯了小米在大模型技術(shù)上的深厚積累。
據(jù)悉,MiMo系列模型由小米新成立的大模型Core團(tuán)隊(duì)傾力打造,其中經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的MiMo-7B-RL模型在數(shù)學(xué)推理和代碼競賽上表現(xiàn)尤為亮眼。在AIME 24-25和LiveCodeBench v5這兩個(gè)公開測(cè)評(píng)集上,MiMo-7B-RL憑借僅7B的參數(shù)量,成功超越了OpenAI的閉源推理模型o1-mini和阿里Qwen的開源推理模型QwQ-32B-Preview。

不僅如此,在相同的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)下,MiMo-7B-RL在數(shù)學(xué)和代碼推理任務(wù)上的表現(xiàn)同樣出色,分?jǐn)?shù)超過了DeepSeek-R1-Distill-7B和Qwen2.5-32B等強(qiáng)大對(duì)手。這一系列的卓越表現(xiàn),無疑為小米在大模型領(lǐng)域樹立了新的標(biāo)桿。
小米大模型Core團(tuán)隊(duì)不僅開源了MiMo-7B-RL,還同時(shí)開源了另外三款MiMo-7B模型,包括基礎(chǔ)模型、SFT模型以及基于這兩種模型訓(xùn)練的強(qiáng)化學(xué)習(xí)模型。這些模型均已在Hugging Face平臺(tái)上發(fā)布,并采用了Apache2.0許可證授權(quán),供全球開發(fā)者免費(fèi)使用。
MiMo的成功并非偶然。小米大模型Core團(tuán)隊(duì)在預(yù)訓(xùn)練和后訓(xùn)練階段都進(jìn)行了深入的創(chuàng)新和優(yōu)化。在預(yù)訓(xùn)練階段,團(tuán)隊(duì)著重挖掘富推理語料,并合成了約200B tokens的推理數(shù)據(jù)。同時(shí),采用三階段數(shù)據(jù)混合策略,逐步提升訓(xùn)練難度,確保模型能夠見過更多推理模式。受DeepSeek-V3啟發(fā),團(tuán)隊(duì)還將多token預(yù)測(cè)作為額外的訓(xùn)練目標(biāo),以增強(qiáng)模型性能并加速推理。

在后訓(xùn)練階段,團(tuán)隊(duì)則專注于高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架的研發(fā)。他們提出了Test Difficulty Driven Reward算法來緩解獎(jiǎng)勵(lì)稀疏問題,并引入了Easy Data Re-Sampling策略來穩(wěn)定強(qiáng)化學(xué)習(xí)訓(xùn)練。同時(shí),他們還設(shè)計(jì)了Seamless Rollout系統(tǒng)來加速強(qiáng)化學(xué)習(xí)訓(xùn)練和驗(yàn)證過程。這些創(chuàng)新舉措共同推動(dòng)了MiMo系列模型在推理能力上的顯著提升。
MiMo系列模型的出色表現(xiàn)不僅贏得了業(yè)界的贊譽(yù),也帶動(dòng)了小米股價(jià)的上漲。在消息公布后,小米集團(tuán)股價(jià)一度上漲4.74%,總市值達(dá)到1.29萬億港元(約合人民幣1.21萬億元)。這一成績無疑為小米在大模型領(lǐng)域的持續(xù)投入和創(chuàng)新注入了新的動(dòng)力。






