近日,智元公司在科技領域邁出了重要一步,正式推出了其首個通用具身基座模型——智元啟元大模型(Genie Operator-1),這一創新成果標志著機器人在智能化道路上取得了顯著進展。

智元啟元大模型的核心在于其獨特的Vision-Language-Latent-Action (ViLLA)架構,該架構融合了VLM(多模態大模型)與MoE(混合專家)兩大組件。VLM通過廣泛收集互聯網圖文數據,獲得了卓越的場景感知和語言理解能力。而MoE則分為Latent Planner(隱式規劃器)和Action Expert(動作專家)兩部分,前者通過大量跨本體和人類操作視頻數據,掌握了通用的動作理解技巧;后者則基于百萬真機數據,實現了精細的動作執行能力。
為了構建這一先進模型,智元在2024年底推出了AgiBot World,這是一個包含超過100萬條軌跡、涵蓋217個任務、涉及五大場景的大規模高質量真機數據集。正是基于這一數據集,智元成功研發出了Genie Operator-1(GO-1)。
與之前的Vision-Language-Action (VLA)架構相比,ViLLA架構通過預測Latent Action Tokens(隱式動作標記),有效彌補了圖像-文本輸入與機器人執行動作之間的鴻溝。在推理過程中,VLM、Latent Planner和Action Expert三者緊密協作,共同完成任務。
具體來說,VLM采用InternVL-2B模型,能夠接收多視角視覺圖片、力覺信號、語言輸入等多模態信息,進行場景感知和指令理解。Latent Planner則基于VLM的中間層輸出,預測Latent Action Tokens,形成規劃鏈(Chain of Planning),進行動作理解和規劃。而Action Expert則根據VLM的中間層輸出以及Latent Action Tokens,生成最終的精細動作序列。

Latent Planner和Action Expert作為MoE中的關鍵組件,各自扮演著重要角色。Latent Planner通過預測離散的Latent Action Tokens,將異構數據源中的真實世界動作知識轉移到通用操作任務中。而Action Expert則采用Diffusion Model作為目標函數,建模低層級動作的連續分布,實現高頻且靈活的操控。
在實驗效果方面,ViLLA架構展現出了強大的性能。在五種不同復雜度的任務測試中,GO-1相比已有的最優模型,平均成功率提高了32%,特別是在“倒水”、“清理桌面”和“補充飲料”等任務中表現尤為突出。單獨驗證Latent Planner的作用也顯示,其能夠提升12%的成功率。

GO-1大模型不僅具備強大的學習能力,能夠結合互聯網視頻和真實人類示范進行學習,增強對人類行為的理解,還具備小樣本快速泛化的能力。這意味著它能夠在極少數據甚至零樣本的情況下,泛化到新場景和新任務,大大降低了具身模型的使用門檻。同時,GO-1還支持部署到不同的機器人本體,實現快速適配和群體升智。
智元還推出了自主研發的大型仿真框架AgiBot Digital World,為機器人操作提供了靈活的仿真數據生成方案、預訓練的大規模仿真數據和統一的模型評測標準。這一框架的推出,將進一步推動機器人在智能化道路上的發展。

智元公司表示,GO-1大模型的推出將加速具身智能的普及,推動機器人從依賴特定任務的工具向具備通用智能的自主體發展。未來,機器人將在商業、工業、家庭等多領域發揮更大作用,為人類創造更加便捷、智能的生活。






