亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

小紅書,這家以“種草”文化著稱的社交平臺,近期在AI技術(shù)自研領(lǐng)域邁出了重要步伐,連續(xù)兩個(gè)月內(nèi)發(fā)布了三款開源模型,引起了業(yè)界的廣泛關(guān)注。最新亮相的多模態(tài)大模型dots.vlm1,憑借其強(qiáng)大的視覺理解和推理能力,展現(xiàn)了接近Gemini 2.5 Pro閉源模型的實(shí)力。

在競爭激烈的AI領(lǐng)域,各大科技公司紛紛推出自家模型,OpenAI的Claude升級至4.1版本,谷歌則推出了用于生成游戲世界的Genie 3,引發(fā)社區(qū)熱議。國產(chǎn)模型也不甘示弱,HuggingFace平臺上的前十名開源模型中,已有多個(gè)來自國內(nèi)團(tuán)隊(duì)。然而,仔細(xì)觀察這些排名靠前的模型,不難發(fā)現(xiàn),大多數(shù)仍為文本模型,缺乏多模態(tài)能力。

小紅書的人文智能實(shí)驗(yàn)室(Humane Intelligence Lab,簡稱hi lab)近日低調(diào)開源了其首個(gè)多模態(tài)大模型dots.vlm1,為視覺語言模型(VLM)領(lǐng)域帶來了新氣象。這款模型基于小紅書自研的12億參數(shù)NaViT視覺編碼器和DeepSeek V3大語言模型構(gòu)建,不僅在視覺理解和推理任務(wù)上表現(xiàn)出色,還保持了純文本任務(wù)中的競爭力。

hi lab此前開源的dots.ocr文檔解析模型已在Huggingface平臺上獲得熱榜第七的好成績,盡管其基礎(chǔ)模型參數(shù)僅為17億,但性能卻達(dá)到了業(yè)界領(lǐng)先水平。這一成就顯示了hi lab團(tuán)隊(duì)在AI技術(shù)自研方面的認(rèn)真態(tài)度和強(qiáng)大實(shí)力。

dots.vlm1在多個(gè)視覺評測集上的表現(xiàn)接近當(dāng)前領(lǐng)先的Gemini 2.5 Pro與Seed-VL1.5 Thinking模型,顯示出強(qiáng)大的圖文理解與推理能力。在文本推理任務(wù)上,dots.vlm1的表現(xiàn)與DeepSeek-R1-0528相當(dāng),盡管在數(shù)學(xué)和代碼能力上已具備一定的通用性,但在更多樣化的推理任務(wù)上仍有提升空間。

在實(shí)際測試中,dots.vlm1展現(xiàn)了令人驚艷的能力。面對復(fù)雜圖表和數(shù)獨(dú)問題,模型能夠逐步分析并給出正確答案,甚至在長時(shí)間思考過程中出現(xiàn)了類似DeepSeek的“啊哈時(shí)刻”,體現(xiàn)了其真正的思考和推理能力。dots.vlm1還能解決紅綠色盲數(shù)字問題,進(jìn)行數(shù)學(xué)計(jì)算,甚至模仿李白詩風(fēng)創(chuàng)作詩詞,展現(xiàn)了其全面的多模態(tài)能力。

dots.vlm1的技術(shù)架構(gòu)由三個(gè)核心組件構(gòu)成:全自研的NaViT視覺編碼器、輕量級的MLP適配器以及DeepSeek V3 MoE大語言模型。這一架構(gòu)通過三階段流程進(jìn)行訓(xùn)練,包括視覺編碼器預(yù)訓(xùn)練、VLM預(yù)訓(xùn)練和VLM后訓(xùn)練,旨在提升模型對多樣視覺數(shù)據(jù)的感知能力和泛化能力。

NaViT視覺編碼器是dots.vlm1的核心之一,它完全從零開始訓(xùn)練,原生支持動態(tài)分辨率,專為視覺語言模型設(shè)計(jì)。通過兩階段的訓(xùn)練策略,NaViT編碼器在基礎(chǔ)視覺和語義感知以及高分辨率輸入處理方面均表現(xiàn)出色。

在預(yù)訓(xùn)練數(shù)據(jù)方面,hi lab為dots.vlm1準(zhǔn)備了跨模態(tài)互譯數(shù)據(jù)和跨模態(tài)融合數(shù)據(jù)兩大類別,旨在構(gòu)建一個(gè)全譜系的數(shù)據(jù)分布,覆蓋所有可被人類理解且可轉(zhuǎn)化為離散token序列的視覺信息。這些數(shù)據(jù)包括普通圖像、復(fù)雜圖表、OCR場景圖像、視頻幀以及Grounding監(jiān)督數(shù)據(jù)等,為模型的多模態(tài)能力提供了有力支持。

小紅書之所以在AI大模型領(lǐng)域加大自研力度,是因?yàn)槎嗄B(tài)能力已成為通向通用人工智能(AGI)的必經(jīng)之路。通過模擬人類利用多種感官綜合感知世界的方式,多模態(tài)AI能夠形成更全面、細(xì)致的理解,對復(fù)雜場景作出更整體化的判斷。在自動駕駛、具身智能等領(lǐng)域,VLM正成為機(jī)器人理解和融入人類社會的重要工具。

小紅書hi lab在AI技術(shù)自研上的決心和投入不僅體現(xiàn)在dots.vlm1上,還體現(xiàn)在其不斷壯大的dots模型家族中。從dots.llm1到dots.ocr再到dots.vlm1,小紅書正逐步構(gòu)建起自己的AI技術(shù)生態(tài)。未來,隨著AI技術(shù)的不斷發(fā)展,小紅書有望在內(nèi)容理解、個(gè)性化推薦以及社區(qū)交互等方面實(shí)現(xiàn)更多創(chuàng)新應(yīng)用。

分享到:
標(biāo)簽:開源 小紅 推理 模型 多模
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52011

    網(wǎng)站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定