久久综合九色综合97婷婷群聊,日韩高清一区二区,亚洲精品亚洲九十七页

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52011
待審：79
小程序：12
文章：1184964
會(huì)員：801

小米開源首個(gè)7B參數(shù)推理大模型MiMo，股價(jià)應(yīng)聲漲近5%

發(fā)布時(shí)間：2025-04-30 13:53:23 作者：網(wǎng)友整理

小米近期在人工智能領(lǐng)域邁出了重要一步，宣布開源其首個(gè)推理大模型——Xiaomi MiMo。這一消息不僅引起了業(yè)界的廣泛關(guān)注，也彰顯了小米在大模型技術(shù)上的深厚積累。

據(jù)悉，MiMo系列模型由小米新成立的大模型Core團(tuán)隊(duì)傾力打造，其中經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的MiMo-7B-RL模型在數(shù)學(xué)推理和代碼競賽上表現(xiàn)尤為亮眼。在AIME 24-25和LiveCodeBench v5這兩個(gè)公開測(cè)評(píng)集上，MiMo-7B-RL憑借僅7B的參數(shù)量，成功超越了OpenAI的閉源推理模型o1-mini和阿里Qwen的開源推理模型QwQ-32B-Preview。

不僅如此，在相同的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)下，MiMo-7B-RL在數(shù)學(xué)和代碼推理任務(wù)上的表現(xiàn)同樣出色，分?jǐn)?shù)超過了DeepSeek-R1-Distill-7B和Qwen2.5-32B等強(qiáng)大對(duì)手。這一系列的卓越表現(xiàn)，無疑為小米在大模型領(lǐng)域樹立了新的標(biāo)桿。

小米大模型Core團(tuán)隊(duì)不僅開源了MiMo-7B-RL，還同時(shí)開源了另外三款MiMo-7B模型，包括基礎(chǔ)模型、SFT模型以及基于這兩種模型訓(xùn)練的強(qiáng)化學(xué)習(xí)模型。這些模型均已在Hugging Face平臺(tái)上發(fā)布，并采用了Apache2.0許可證授權(quán)，供全球開發(fā)者免費(fèi)使用。

MiMo的成功并非偶然。小米大模型Core團(tuán)隊(duì)在預(yù)訓(xùn)練和后訓(xùn)練階段都進(jìn)行了深入的創(chuàng)新和優(yōu)化。在預(yù)訓(xùn)練階段，團(tuán)隊(duì)著重挖掘富推理語料，并合成了約200B tokens的推理數(shù)據(jù)。同時(shí)，采用三階段數(shù)據(jù)混合策略，逐步提升訓(xùn)練難度，確保模型能夠見過更多推理模式。受DeepSeek-V3啟發(fā)，團(tuán)隊(duì)還將多token預(yù)測(cè)作為額外的訓(xùn)練目標(biāo)，以增強(qiáng)模型性能并加速推理。

在后訓(xùn)練階段，團(tuán)隊(duì)則專注于高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架的研發(fā)。他們提出了Test Difficulty Driven Reward算法來緩解獎(jiǎng)勵(lì)稀疏問題，并引入了Easy Data Re-Sampling策略來穩(wěn)定強(qiáng)化學(xué)習(xí)訓(xùn)練。同時(shí)，他們還設(shè)計(jì)了Seamless Rollout系統(tǒng)來加速強(qiáng)化學(xué)習(xí)訓(xùn)練和驗(yàn)證過程。這些創(chuàng)新舉措共同推動(dòng)了MiMo系列模型在推理能力上的顯著提升。

MiMo系列模型的出色表現(xiàn)不僅贏得了業(yè)界的贊譽(yù)，也帶動(dòng)了小米股價(jià)的上漲。在消息公布后，小米集團(tuán)股價(jià)一度上漲4.74%，總市值達(dá)到1.29萬億港元（約合人民幣1.21萬億元）。這一成績無疑為小米在大模型領(lǐng)域的持續(xù)投入和創(chuàng)新注入了新的動(dòng)力。

分享到：

標(biāo)簽：應(yīng)聲小米首個(gè) 股價(jià) 開源