阿里國際數字貿易集團旗下的AI研發團隊AIDC-AI,近期隆重推出了其最新的多模態大語言模型——Ovis2.5。此次發布包含了9B和2B兩種參數規模版本,專為經濟型視覺推理應用而生,樹立了多模態AI領域的新典范。
Ovis2.5在性能表現上尤為突出,得益于其獨特的核心功能設計。首先,該模型引入了NaViT視覺編碼器,實現了原生分辨率感知,無需犧牲圖像細節即可捕捉全局結構,保證了視覺處理的高品質。這一特性使得Ovis2.5在處理復雜圖像信息時游刃有余。
Ovis2.5還具備深度推理能力,其可選的“思考模式”可能借鑒了阿里Qwen3的先進技術。該模式不僅支持線性思維鏈推理,還能進行自我校驗和修正,用戶可根據需求配置思考預算,從而提高了問題解決的準確性和效率。這一創新設計,無疑為Ovis2.5增添了強大的智力支持。
在OCR領域,Ovis2.9B和2B版本均展現出卓越性能,尤其在復雜圖表分析、文檔理解(涵蓋表格和表單)方面,達到了業界領先水平。這一特性為眾多實際應用場景提供了強有力的技術支撐,如文檔自動化處理、數據分析等。
Ovis2.5在圖像推理、視頻理解和視覺定位等多個基準測試中同樣表現優異,充分展示了其強大的通用多模態處理能力。這一全面而強大的功能集,使得Ovis2.5在多模態AI應用中具有極高的實用價值。
AIDC-AI此次發布Ovis2.5,不僅彰顯了其在多模態AI技術領域的持續創新能力,也為開發者和企業用戶帶來了一種高效且易于部署的解決方案。尤其對于那些需要結合視覺與文本推理的應用場景,Ovis2.5無疑是一個理想的選擇。
目前,Ovis2.5已在GitHub和Hugging Face等平臺開源,這一舉措將進一步促進全球AI社區的協作與創新,推動多模態大語言模型技術的快速發展。
Ovis2.5的發布,標志著AIDC-AI在Ovis系列模型研發上取得了又一重大突破,為多模態大語言模型的發展注入了強勁動力。






