亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會(huì)員:801

在科技日新月異的今天,小紅書再次展示了其在人工智能領(lǐng)域的雄心壯志。這家以內(nèi)容分享聞名的平臺(tái),近期連續(xù)推出了三款自研模型,其中最新亮相的多模態(tài)大模型dots.vlm1尤為引人注目。

dots.vlm1基于小紅書人文智能實(shí)驗(yàn)室(Humane Intelligence Lab,簡(jiǎn)稱hi lab)自主研發(fā)的視覺(jué)編碼器構(gòu)建,其能力覆蓋了從視覺(jué)理解到文本生成的多個(gè)領(lǐng)域。在實(shí)測(cè)中,dots.vlm1不僅成功“看穿”了色盲圖,還解決了數(shù)獨(dú)問(wèn)題,甚至能夠解答高考數(shù)學(xué)題,并模仿李白的詩(shī)風(fēng)創(chuàng)作詩(shī)歌,其視覺(jué)理解和推理能力已接近行業(yè)領(lǐng)先的Gemini 2.5 Pro閉源模型。

在當(dāng)前的AI圈,各大巨頭紛紛推出自己的開(kāi)源模型,競(jìng)爭(zhēng)異常激烈。OpenAI發(fā)布了Claude的4.1版本,谷歌則推出了用于生成游戲世界的Genie 3,引發(fā)了廣泛討論。而在國(guó)產(chǎn)模型方面,HuggingFace平臺(tái)上排名前十的開(kāi)源模型中,國(guó)內(nèi)模型占據(jù)了多數(shù)席位,顯示了國(guó)產(chǎn)AI技術(shù)的崛起。

然而,仔細(xì)觀察這些排名靠前的開(kāi)源模型,不難發(fā)現(xiàn)一個(gè)現(xiàn)象:它們大多是文本模型,缺乏多模態(tài)能力。而小紅書的dots.vlm1,正是在這一背景下脫穎而出的多模態(tài)大模型,為VLM(視覺(jué)語(yǔ)言模型)領(lǐng)域帶來(lái)了新的活力。

小紅書hi lab由內(nèi)部大模型技術(shù)與應(yīng)用產(chǎn)品團(tuán)隊(duì)升級(jí)而來(lái),其研發(fā)重點(diǎn)放在了多元智能形態(tài)上,旨在通過(guò)融合人際智能、空間智能、音樂(lè)智能等多種智能形態(tài),拓展人機(jī)交互的可能性。dots.vlm1正是這一理念的產(chǎn)物,它基于12億參數(shù)的NaViT視覺(jué)編碼器和DeepSeek V3大語(yǔ)言模型構(gòu)建,在視覺(jué)理解和推理任務(wù)上表現(xiàn)出色,同時(shí)在純文本任務(wù)中也保持了競(jìng)爭(zhēng)力。

在視覺(jué)評(píng)測(cè)集上,dots.vlm1的整體表現(xiàn)已接近Gemini 2.5 Pro與Seed-VL1.5 Thinking等領(lǐng)先模型,顯示出強(qiáng)大的圖文理解與推理能力。在文本推理任務(wù)上,dots.vlm1的表現(xiàn)也相當(dāng)出色,盡管在數(shù)學(xué)和代碼能力上已具備通用性,但在更多樣化的推理任務(wù)上仍有提升空間。

dots.vlm1的實(shí)測(cè)表現(xiàn)令人驚艷。在空間理解方面,它能夠準(zhǔn)確定義復(fù)雜圖表中物體的空間關(guān)系;在數(shù)獨(dú)問(wèn)題上,dots.vlm1能夠完美解題,其推理過(guò)程甚至出現(xiàn)了類似DeepSeek的“啊哈時(shí)刻”,顯示了模型真正的思考和推理能力。dots.vlm1還能解決紅綠色盲數(shù)字問(wèn)題、進(jìn)行數(shù)學(xué)計(jì)算、回答冷門問(wèn)題以及進(jìn)行行測(cè)等任務(wù),展現(xiàn)了其廣泛的應(yīng)用潛力。

除了強(qiáng)大的功能外,dots.vlm1的技術(shù)架構(gòu)也值得一提。它由三個(gè)核心組件構(gòu)成:全自研的NaViT視覺(jué)編碼器、輕量級(jí)的MLP適配器以及DeepSeek V3 MoE大語(yǔ)言模型。這一架構(gòu)通過(guò)三階段流程進(jìn)行訓(xùn)練,包括視覺(jué)編碼器預(yù)訓(xùn)練、VLM預(yù)訓(xùn)練和VLM后訓(xùn)練,確保了模型的性能和泛化能力。

NaViT視覺(jué)編碼器是dots.vlm1的一大亮點(diǎn)。它完全從零開(kāi)始訓(xùn)練,原生支持動(dòng)態(tài)分辨率和高分辨率輸入,為模型提供了強(qiáng)大的視覺(jué)感知能力。在訓(xùn)練過(guò)程中,NaViT編碼器采用了雙重監(jiān)督策略,包括下一Token預(yù)測(cè)和下一Patch生成,進(jìn)一步增強(qiáng)了模型的空間與語(yǔ)義感知能力。

對(duì)于為何小紅書要自研多模態(tài)大模型,答案或許在于多模態(tài)AI的重要性。多模態(tài)AI模擬了人類利用多種感官綜合感知世界的方式,能夠形成更全面、細(xì)致的理解。在自動(dòng)駕駛、具身智能等領(lǐng)域,VLM作為機(jī)器人的眼睛甚至大腦,發(fā)揮著至關(guān)重要的作用。因此,小紅書自研多模態(tài)大模型不僅是為了提升平臺(tái)的內(nèi)容理解和推薦能力,更是為了在未來(lái)的人機(jī)交互中占據(jù)先機(jī)。

小紅書在AI領(lǐng)域的投入遠(yuǎn)不止于此。除了dots.vlm1外,hi lab還推出了dots.llm1和dots.ocr等模型,形成了dots模型家族。這些模型不僅在技術(shù)上有所突破,更體現(xiàn)了小紅書對(duì)于多元智能的追求和探索。未來(lái),隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,我們有理由相信小紅書將在AI領(lǐng)域取得更多令人矚目的成就。

分享到:
標(biāo)簽:首個(gè) 小紅 模型 多模 接近
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52011

    網(wǎng)站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定