在機(jī)器人技術(shù)的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡(jiǎn)稱(chēng)GO-1)的創(chuàng)新成果近日由智元機(jī)器人公司正式發(fā)布。這款通用具身基座模型,以其獨(dú)特的Vision-Language-Latent-Action(ViLLA)框架,為機(jī)器人領(lǐng)域帶來(lái)了革命性的突破。
ViLLA框架由兩大核心組件構(gòu)成:VLM(多模態(tài)大模型)與MoE(混合專(zhuān)家)。VLM作為GO-1的主干網(wǎng)絡(luò),基于開(kāi)源多模態(tài)大模型5-2B的權(quán)重進(jìn)行訓(xùn)練,通過(guò)互聯(lián)網(wǎng)上的大規(guī)模純文本和圖文數(shù)據(jù),賦予了GO-1強(qiáng)大的場(chǎng)景感知和理解能力。而MoE則包含了隱動(dòng)作專(zhuān)家模型和動(dòng)作專(zhuān)家模型,前者利用互聯(lián)網(wǎng)上的大規(guī)模人類(lèi)操作和跨本體操作視頻,使模型能夠理解并執(zhí)行各種動(dòng)作;后者則通過(guò)高質(zhì)量的仿真數(shù)據(jù)和真機(jī)數(shù)據(jù),確保了動(dòng)作的精細(xì)執(zhí)行能力。

GO-1的發(fā)布,標(biāo)志著機(jī)器人在小樣本快速泛化、跨本體應(yīng)用等方面取得了顯著進(jìn)展。該模型能夠在極少數(shù)據(jù)甚至零樣本的情況下,快速適應(yīng)新場(chǎng)景和新任務(wù),實(shí)現(xiàn)“一腦多形”的跨本體部署。同時(shí),智元機(jī)器人還預(yù)告,未來(lái)幾個(gè)月將推出基于強(qiáng)化學(xué)習(xí)的仿真模型,并即將亮相新的人形機(jī)器人。
GO-1的成功,得益于其獨(dú)特的數(shù)字金字塔構(gòu)建方式。底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),為機(jī)器人提供了廣泛的知識(shí)基礎(chǔ)。在此基礎(chǔ)上,通過(guò)引入互聯(lián)網(wǎng)的大規(guī)模人類(lèi)操作/跨本體視頻和仿真數(shù)據(jù),GO-1得以學(xué)習(xí)各種動(dòng)作操作模式,并增強(qiáng)泛化性。金字塔的頂層則是高質(zhì)量的真機(jī)示教數(shù)據(jù),用于訓(xùn)練精準(zhǔn)動(dòng)作執(zhí)行。

在實(shí)際應(yīng)用中,GO-1展現(xiàn)出了卓越的性能。用戶(hù)只需通過(guò)簡(jiǎn)單的語(yǔ)言指令,機(jī)器人就能根據(jù)場(chǎng)景和物體理解指令的含義,并快速執(zhí)行相應(yīng)動(dòng)作。例如,用戶(hù)告訴機(jī)器人“掛衣服”,機(jī)器人就能根據(jù)所學(xué)知識(shí)和仿真數(shù)據(jù),理解掛衣服的步驟,并精準(zhǔn)完成任務(wù)。GO-1還能通過(guò)數(shù)據(jù)回流系統(tǒng)持續(xù)進(jìn)化,從實(shí)際執(zhí)行中遇到的問(wèn)題數(shù)據(jù)中不斷學(xué)習(xí),提高任務(wù)完成的成功率。

GO-1的應(yīng)用場(chǎng)景廣泛,從家庭場(chǎng)景中的準(zhǔn)備餐食、收拾桌面,到辦公和商業(yè)場(chǎng)景中的接待訪(fǎng)客、發(fā)放物品,再到工業(yè)等其他場(chǎng)景的操作任務(wù),都能輕松應(yīng)對(duì)。這意味著機(jī)器人將能夠走向更多不同場(chǎng)景,適應(yīng)多變的真實(shí)世界,為人類(lèi)的工作和生活帶來(lái)更多便利。

智元啟元大模型GO-1的發(fā)布,不僅為機(jī)器人領(lǐng)域帶來(lái)了技術(shù)上的突破,更為具身智能的通用化、開(kāi)放化與智能化發(fā)展開(kāi)辟了新道路。未來(lái),隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,機(jī)器人將在更多領(lǐng)域發(fā)揮重要作用,為人類(lèi)創(chuàng)造更加美好的生活和工作環(huán)境。






