亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

近期,meta公司推出了全新的WebSSL系列視覺模型,這一系列模型的參數規模橫跨3億至70億,專注于無語言監督的視覺自監督學習(SSL)領域。該系列模型的推出,標志著meta在探索視覺表征學習新路徑上的重大進展,為未來的多模態任務應用提供了更多可能性。

在人工智能領域,多模態任務的表現一直備受關注,OpenAI的CLIP模型便是其中的佼佼者,尤其在視覺問答(VQA)和文檔理解等任務中表現突出。然而,CLIP模型的訓練依賴于大規模且復雜的語言數據集,這在一定程度上限制了其廣泛應用。為了突破這一局限,meta利用自家的metaCLIP數據集(包含20億張圖像)進行訓練,完全摒棄了語言監督,旨在純粹通過視覺數據來提升模型性能。

實驗結果表明,隨著模型參數規模的增加,WebSSL在VQA任務中的表現呈現出顯著提升。特別是在OCR和圖表解讀任務中,WebSSL的表現甚至超越了CLIP模型。當通過高分辨率(518px)進行微調時,WebSSL在文檔理解任務中的表現也取得了大幅提升,進一步縮小了與一些高分辨率模型的差距。

值得注意的是,盡管WebSSL模型是在無語言監督的條件下進行訓練的,但它們仍然展現出與一些預訓練語言模型(如LLaMA-3)的良好對齊性。這一發現表明,大規模視覺模型能夠在沒有顯式語言監督的情況下,隱式地學習到與文本語義相關的特征。這一發現為視覺與語言之間的關系提供了新的視角和思考。

meta的WebSSL系列模型的推出,不僅在傳統基準測試中取得了優異表現,更為未來無語言監督學習的研究開辟了新的方向。這一系列模型的成功,標志著meta在推動人工智能領域創新方面邁出了重要一步。

分享到:
標簽:新突破 模型 亮相 視覺 監督
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定