智元機器人近日宣布了一項革命性的技術(shù)突破,正式推出了業(yè)內(nèi)首個開源的機器人世界模型平臺——Genie Envisioner(簡稱GE)。這一創(chuàng)新平臺的問世,標(biāo)志著機器人在學(xué)習(xí)技術(shù)領(lǐng)域邁出了關(guān)鍵的一步。
不同于傳統(tǒng)的機器人學(xué)習(xí)方式,Genie Envisioner平臺采用了全新的設(shè)計理念,其核心是一個統(tǒng)一的視頻生成世界模型,形成了一個閉環(huán)系統(tǒng)。該系統(tǒng)集成了未來幀預(yù)測、策略學(xué)習(xí)與仿真評估等多個功能模塊,使得機器人能夠在單一模型內(nèi)實現(xiàn)從環(huán)境感知、決策制定到動作執(zhí)行的完整流程。

該平臺的核心架構(gòu)高度集成,主要包括三個部分:GE-Base模型、GE-Act動作解碼器和GE-Sim神經(jīng)仿真器。GE-Base模型基于龐大的數(shù)據(jù)集訓(xùn)練而成,擁有卓越的環(huán)境布局解析能力和動作意圖理解能力。GE-Act則負(fù)責(zé)將模型的理解結(jié)果轉(zhuǎn)化為具體的動作指令,確保機器人能夠準(zhǔn)確執(zhí)行。而GE-Sim則是一個基于動作條件的神經(jīng)仿真器,通過精細的分層機制,實現(xiàn)了高精度的視覺預(yù)測。這三個部分協(xié)同工作,共同推動了平臺的高效運行。
在開發(fā)過程中,智元機器人投入了大量資源,利用了約3000小時的真實機器人操作視頻數(shù)據(jù)。這些數(shù)據(jù)不僅幫助模型建立了語言指令與視覺空間之間的直接聯(lián)系,還完整保留了操作過程中的時空信息,從而確保了平臺的準(zhǔn)確性和實用性。
在實際應(yīng)用中,搭載GE平臺的機器人已經(jīng)展現(xiàn)出了強大的任務(wù)執(zhí)行能力。例如,在測試中,配備GE-Act模塊的機器人成功完成了制作三明治、倒茶和擦拭桌面等多項復(fù)雜任務(wù)。這些成果不僅驗證了GE平臺的技術(shù)優(yōu)勢,也充分展示了其在提升機器人智能化水平和任務(wù)執(zhí)行能力方面的巨大潛力。






