在科技日新月異的今天,小紅書再次展示了其在人工智能領(lǐng)域的雄心壯志。這家以內(nèi)容分享聞名的平臺(tái),近期連續(xù)推出了三款自研模型,其中最新亮相的多模態(tài)大模型dots.vlm1尤為引人注目。
dots.vlm1基于小紅書人文智能實(shí)驗(yàn)室(Humane Intelligence Lab,簡(jiǎn)稱hi lab)自主研發(fā)的視覺(jué)編碼器構(gòu)建,其能力覆蓋了從視覺(jué)理解到文本生成的多個(gè)領(lǐng)域。在實(shí)測(cè)中,dots.vlm1不僅成功“看穿”了色盲圖,還解決了數(shù)獨(dú)問(wèn)題,甚至能夠解答高考數(shù)學(xué)題,并模仿李白的詩(shī)風(fēng)創(chuàng)作詩(shī)歌,其視覺(jué)理解和推理能力已接近行業(yè)領(lǐng)先的Gemini 2.5 Pro閉源模型。
在當(dāng)前的AI圈,各大巨頭紛紛推出自己的開(kāi)源模型,競(jìng)爭(zhēng)異常激烈。OpenAI發(fā)布了Claude的4.1版本,谷歌則推出了用于生成游戲世界的Genie 3,引發(fā)了廣泛討論。而在國(guó)產(chǎn)模型方面,HuggingFace平臺(tái)上排名前十的開(kāi)源模型中,國(guó)內(nèi)模型占據(jù)了多數(shù)席位,顯示了國(guó)產(chǎn)AI技術(shù)的崛起。
然而,仔細(xì)觀察這些排名靠前的開(kāi)源模型,不難發(fā)現(xiàn)一個(gè)現(xiàn)象:它們大多是文本模型,缺乏多模態(tài)能力。而小紅書的dots.vlm1,正是在這一背景下脫穎而出的多模態(tài)大模型,為VLM(視覺(jué)語(yǔ)言模型)領(lǐng)域帶來(lái)了新的活力。

小紅書hi lab由內(nèi)部大模型技術(shù)與應(yīng)用產(chǎn)品團(tuán)隊(duì)升級(jí)而來(lái),其研發(fā)重點(diǎn)放在了多元智能形態(tài)上,旨在通過(guò)融合人際智能、空間智能、音樂(lè)智能等多種智能形態(tài),拓展人機(jī)交互的可能性。dots.vlm1正是這一理念的產(chǎn)物,它基于12億參數(shù)的NaViT視覺(jué)編碼器和DeepSeek V3大語(yǔ)言模型構(gòu)建,在視覺(jué)理解和推理任務(wù)上表現(xiàn)出色,同時(shí)在純文本任務(wù)中也保持了競(jìng)爭(zhēng)力。
在視覺(jué)評(píng)測(cè)集上,dots.vlm1的整體表現(xiàn)已接近Gemini 2.5 Pro與Seed-VL1.5 Thinking等領(lǐng)先模型,顯示出強(qiáng)大的圖文理解與推理能力。在文本推理任務(wù)上,dots.vlm1的表現(xiàn)也相當(dāng)出色,盡管在數(shù)學(xué)和代碼能力上已具備通用性,但在更多樣化的推理任務(wù)上仍有提升空間。
dots.vlm1的實(shí)測(cè)表現(xiàn)令人驚艷。在空間理解方面,它能夠準(zhǔn)確定義復(fù)雜圖表中物體的空間關(guān)系;在數(shù)獨(dú)問(wèn)題上,dots.vlm1能夠完美解題,其推理過(guò)程甚至出現(xiàn)了類似DeepSeek的“啊哈時(shí)刻”,顯示了模型真正的思考和推理能力。dots.vlm1還能解決紅綠色盲數(shù)字問(wèn)題、進(jìn)行數(shù)學(xué)計(jì)算、回答冷門問(wèn)題以及進(jìn)行行測(cè)等任務(wù),展現(xiàn)了其廣泛的應(yīng)用潛力。
除了強(qiáng)大的功能外,dots.vlm1的技術(shù)架構(gòu)也值得一提。它由三個(gè)核心組件構(gòu)成:全自研的NaViT視覺(jué)編碼器、輕量級(jí)的MLP適配器以及DeepSeek V3 MoE大語(yǔ)言模型。這一架構(gòu)通過(guò)三階段流程進(jìn)行訓(xùn)練,包括視覺(jué)編碼器預(yù)訓(xùn)練、VLM預(yù)訓(xùn)練和VLM后訓(xùn)練,確保了模型的性能和泛化能力。
NaViT視覺(jué)編碼器是dots.vlm1的一大亮點(diǎn)。它完全從零開(kāi)始訓(xùn)練,原生支持動(dòng)態(tài)分辨率和高分辨率輸入,為模型提供了強(qiáng)大的視覺(jué)感知能力。在訓(xùn)練過(guò)程中,NaViT編碼器采用了雙重監(jiān)督策略,包括下一Token預(yù)測(cè)和下一Patch生成,進(jìn)一步增強(qiáng)了模型的空間與語(yǔ)義感知能力。
對(duì)于為何小紅書要自研多模態(tài)大模型,答案或許在于多模態(tài)AI的重要性。多模態(tài)AI模擬了人類利用多種感官綜合感知世界的方式,能夠形成更全面、細(xì)致的理解。在自動(dòng)駕駛、具身智能等領(lǐng)域,VLM作為機(jī)器人的眼睛甚至大腦,發(fā)揮著至關(guān)重要的作用。因此,小紅書自研多模態(tài)大模型不僅是為了提升平臺(tái)的內(nèi)容理解和推薦能力,更是為了在未來(lái)的人機(jī)交互中占據(jù)先機(jī)。
小紅書在AI領(lǐng)域的投入遠(yuǎn)不止于此。除了dots.vlm1外,hi lab還推出了dots.llm1和dots.ocr等模型,形成了dots模型家族。這些模型不僅在技術(shù)上有所突破,更體現(xiàn)了小紅書對(duì)于多元智能的追求和探索。未來(lái),隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,我們有理由相信小紅書將在AI領(lǐng)域取得更多令人矚目的成就。






