亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52010
  • 待審:74
  • 小程序:12
  • 文章:1158077
  • 會員:789

Hugging Face平臺近期在科技界掀起波瀾,發(fā)布了一款名為SmolVLM的AI視覺語言模型(VLM),這款模型以其精簡的20億參數(shù)設(shè)計,專為設(shè)備端推理打造,憑借超低的內(nèi)存占用,在眾多同類模型中獨樹一幟。

SmolVLM AI模型的核心優(yōu)勢在于其小巧的體積、驚人的處理速度以及高效的內(nèi)存利用。更重要的是,該模型完全開源,所有相關(guān)的模型檢查點、VLM數(shù)據(jù)集、訓練配方和工具,均在Apache 2.0許可證下向公眾開放。

SmolVLM提供了三個版本以滿足不同需求:SmolVLM-Base,適用于下游任務(wù)的微調(diào);SmolVLM-Synthetic,基于合成數(shù)據(jù)進行微調(diào);以及SmolVLM-Instruct,這是一個指令微調(diào)版本,可直接應用于交互式應用中。

該模型在架構(gòu)設(shè)計上的巧妙之處,是其借鑒了Idefics3的理念,并采用了SmolLM2 1.7B作為語言主干。通過創(chuàng)新的像素混洗策略,SmolVLM將視覺信息的壓縮率提升了9倍,從而實現(xiàn)了更高效的視覺信息處理。

在訓練數(shù)據(jù)集方面,SmolVLM涵蓋了Cauldron和Docmatix,并對SmolLM2進行了上下文擴展,使其能夠處理更長的文本序列和多張圖像。這一優(yōu)化不僅提升了模型的性能,還有效降低了內(nèi)存占用,解決了大型模型在普通設(shè)備上運行緩慢甚至無法運行的問題。

在內(nèi)存使用方面,SmolVLM展現(xiàn)出了卓越的能力。它將384x384像素的圖像塊編碼為81個tokens,這意味著在相同的測試圖片下,SmolVLM僅需使用1200個tokens,而相比之下,Qwen2-VL則需要1.6萬個tokens。這一顯著的內(nèi)存節(jié)省,使得SmolVLM在設(shè)備端推理上更具優(yōu)勢。

在性能表現(xiàn)上,SmolVLM同樣令人矚目。它在多個基準測試中,如MMMU、MathVista、MMStar、DocVQA和TextVQA等,均展現(xiàn)出了出色的處理能力。與Qwen2-VL相比,SmolVLM在預填充吞吐量上快了3.3到4.5倍,而在生成吞吐量上更是快了7.5到16倍。

這款創(chuàng)新模型的發(fā)布,無疑為AI視覺語言模型領(lǐng)域帶來了新的活力和可能性。隨著SmolVLM的廣泛應用和深入發(fā)展,我們有理由期待它在未來能夠發(fā)揮更大的作用,為人工智能技術(shù)的發(fā)展貢獻更多的力量。

分享到:
標簽:高效 助力 推理 模型 參數(shù)
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 52010

    網(wǎng)站

  • 12

    小程序

  • 1158077

    文章

  • 789

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定