国内精品欧美久久精品,韩国色三级伦不卡高清在线观看,日韩中文字幕视频在线

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52011
待審：79
小程序：12
文章：1184964
會(huì)員：801

首頁(yè) > 新聞資訊 > 手機(jī)數(shù)碼 >正文

小紅書發(fā)布首個(gè)自研多模態(tài)大模型dots.vlm1，性能接近頂尖水平

發(fā)布時(shí)間：2025-08-08 02:03:34 作者：網(wǎng)友整理

在科技日新月異的今天，小紅書再次展示了其在人工智能領(lǐng)域的雄心壯志。這家以內(nèi)容分享聞名的平臺(tái)，近期連續(xù)推出了三款自研模型，其中最新亮相的多模態(tài)大模型dots.vlm1尤為引人注目。

dots.vlm1基于小紅書人文智能實(shí)驗(yàn)室（Humane Intelligence Lab，簡(jiǎn)稱hi lab）自主研發(fā)的視覺(jué)編碼器構(gòu)建，其能力覆蓋了從視覺(jué)理解到文本生成的多個(gè)領(lǐng)域。在實(shí)測(cè)中，dots.vlm1不僅成功“看穿”了色盲圖，還解決了數(shù)獨(dú)問(wèn)題，甚至能夠解答高考數(shù)學(xué)題，并模仿李白的詩(shī)風(fēng)創(chuàng)作詩(shī)歌，其視覺(jué)理解和推理能力已接近行業(yè)領(lǐng)先的Gemini 2.5 Pro閉源模型。

在當(dāng)前的AI圈，各大巨頭紛紛推出自己的開(kāi)源模型，競(jìng)爭(zhēng)異常激烈。OpenAI發(fā)布了Claude的4.1版本，谷歌則推出了用于生成游戲世界的Genie 3，引發(fā)了廣泛討論。而在國(guó)產(chǎn)模型方面，HuggingFace平臺(tái)上排名前十的開(kāi)源模型中，國(guó)內(nèi)模型占據(jù)了多數(shù)席位，顯示了國(guó)產(chǎn)AI技術(shù)的崛起。

然而，仔細(xì)觀察這些排名靠前的開(kāi)源模型，不難發(fā)現(xiàn)一個(gè)現(xiàn)象：它們大多是文本模型，缺乏多模態(tài)能力。而小紅書的dots.vlm1，正是在這一背景下脫穎而出的多模態(tài)大模型，為VLM（視覺(jué)語(yǔ)言模型）領(lǐng)域帶來(lái)了新的活力。

小紅書hi lab由內(nèi)部大模型技術(shù)與應(yīng)用產(chǎn)品團(tuán)隊(duì)升級(jí)而來(lái)，其研發(fā)重點(diǎn)放在了多元智能形態(tài)上，旨在通過(guò)融合人際智能、空間智能、音樂(lè)智能等多種智能形態(tài)，拓展人機(jī)交互的可能性。dots.vlm1正是這一理念的產(chǎn)物，它基于12億參數(shù)的NaViT視覺(jué)編碼器和DeepSeek V3大語(yǔ)言模型構(gòu)建，在視覺(jué)理解和推理任務(wù)上表現(xiàn)出色，同時(shí)在純文本任務(wù)中也保持了競(jìng)爭(zhēng)力。

在視覺(jué)評(píng)測(cè)集上，dots.vlm1的整體表現(xiàn)已接近Gemini 2.5 Pro與Seed-VL1.5 Thinking等領(lǐng)先模型，顯示出強(qiáng)大的圖文理解與推理能力。在文本推理任務(wù)上，dots.vlm1的表現(xiàn)也相當(dāng)出色，盡管在數(shù)學(xué)和代碼能力上已具備通用性，但在更多樣化的推理任務(wù)上仍有提升空間。

dots.vlm1的實(shí)測(cè)表現(xiàn)令人驚艷。在空間理解方面，它能夠準(zhǔn)確定義復(fù)雜圖表中物體的空間關(guān)系；在數(shù)獨(dú)問(wèn)題上，dots.vlm1能夠完美解題，其推理過(guò)程甚至出現(xiàn)了類似DeepSeek的“啊哈時(shí)刻”，顯示了模型真正的思考和推理能力。dots.vlm1還能解決紅綠色盲數(shù)字問(wèn)題、進(jìn)行數(shù)學(xué)計(jì)算、回答冷門問(wèn)題以及進(jìn)行行測(cè)等任務(wù)，展現(xiàn)了其廣泛的應(yīng)用潛力。

除了強(qiáng)大的功能外，dots.vlm1的技術(shù)架構(gòu)也值得一提。它由三個(gè)核心組件構(gòu)成：全自研的NaViT視覺(jué)編碼器、輕量級(jí)的MLP適配器以及DeepSeek V3 MoE大語(yǔ)言模型。這一架構(gòu)通過(guò)三階段流程進(jìn)行訓(xùn)練，包括視覺(jué)編碼器預(yù)訓(xùn)練、VLM預(yù)訓(xùn)練和VLM后訓(xùn)練，確保了模型的性能和泛化能力。

NaViT視覺(jué)編碼器是dots.vlm1的一大亮點(diǎn)。它完全從零開(kāi)始訓(xùn)練，原生支持動(dòng)態(tài)分辨率和高分辨率輸入，為模型提供了強(qiáng)大的視覺(jué)感知能力。在訓(xùn)練過(guò)程中，NaViT編碼器采用了雙重監(jiān)督策略，包括下一Token預(yù)測(cè)和下一Patch生成，進(jìn)一步增強(qiáng)了模型的空間與語(yǔ)義感知能力。

對(duì)于為何小紅書要自研多模態(tài)大模型，答案或許在于多模態(tài)AI的重要性。多模態(tài)AI模擬了人類利用多種感官綜合感知世界的方式，能夠形成更全面、細(xì)致的理解。在自動(dòng)駕駛、具身智能等領(lǐng)域，VLM作為機(jī)器人的眼睛甚至大腦，發(fā)揮著至關(guān)重要的作用。因此，小紅書自研多模態(tài)大模型不僅是為了提升平臺(tái)的內(nèi)容理解和推薦能力，更是為了在未來(lái)的人機(jī)交互中占據(jù)先機(jī)。

小紅書在AI領(lǐng)域的投入遠(yuǎn)不止于此。除了dots.vlm1外，hi lab還推出了dots.llm1和dots.ocr等模型，形成了dots模型家族。這些模型不僅在技術(shù)上有所突破，更體現(xiàn)了小紅書對(duì)于多元智能的追求和探索。未來(lái)，隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展，我們有理由相信小紅書將在AI領(lǐng)域取得更多令人矚目的成就。

分享到：

標(biāo)簽：首個(gè) 小紅模型多模接近