亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

Hugging Face近期震撼發布了SmolLM3,一款輕量級大語言模型,憑借其30億參數的高效設計與卓越性能,迅速吸引了業界的廣泛關注。這款模型在多個基準測試中,不僅超越了同級別的Llama-3.2-3B和Qwen2.5-3B,甚至與擁有40億參數的Gemma3模型不相上下。

SmolLM3,作為解碼器專用的Transformer模型,采用了創新的分組查詢注意力(GQA)和NoPE技術,這些優化措施使其在保持高效推理的同時,也具備了處理長上下文的能力。模型在包含網頁、代碼、數學和推理數據的多樣化11.2萬億token數據集上進行預訓練,使其在多個領域展現出強大的表現。

尤為SmolLM3引入了雙模式推理功能,即“思考”和“非思考”模式。在復雜任務中,開啟思考模式的SmolLM3表現出顯著提升,如在AIME2025、LiveCodeBench和GPQA Diamond等測試中,其性能均優于非思考模式。這種靈活的推理模式,使得SmolLM3能夠根據任務需求動態調整,兼顧速度與深度推理。

在處理長上下文方面,SmolLM3同樣表現出色。訓練時支持64K上下文,并通過YaRN技術可擴展至128K token。模型原生支持六種語言,并在其他語言上也進行了少量訓練,展現出優異的多語言能力。在Global MMLU和Flores-200等測試中,SmolLM3的多語言能力均位居同級別模型前列。

Hugging Face一貫堅持開源精神,此次不僅公開了SmolLM3的模型權重,還完整開源了訓練數據混合、訓練配置和代碼。開發者可通過Hugging Face的smollm存儲庫獲取相關資料,這種透明的“訓練藍圖”極大地降低了學術研究和商業應用的門檻。

SmolLM3專為高效推理而設計,采用分組查詢注意力機制顯著減少了推理時的KV緩存占用。結合WebGPU支持,使其非常適合在瀏覽器或邊緣設備上運行。相較于更大規模的模型,SmolLM3在性能與計算成本之間找到了平衡點,為教育、編碼、客戶支持等場景提供了高性價比的解決方案。

SmolLM3的發布,標志著小規模語言模型在性能與效率上取得了重大突破。其開源特性、長上下文支持和多語言能力,使其成為學術研究、初創公司和中小型企業的理想選擇。無論是開發者還是企業用戶,這款高效、多功能的模型無疑將為他們帶來新的機遇和挑戰。

Hugging Face通過開源SmolLM3的訓練細節和數據,為行業樹立了透明與協作的典范。我們期待看到這款模型在更多實際場景中的應用表現,并期待其后續的更新與發展。

分享到:
標簽:高效 開源 模型 性能 挑戰
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定