谷歌DeepMind在人工智能領(lǐng)域再次邁出重要一步,近日推出了兩款專為現(xiàn)實世界任務(wù)設(shè)計的AI模型,旨在增強機器人的功能與適應(yīng)性。
其中一款名為Gemini Robotics的模型,憑借其強大的視覺語言行動能力,讓機器人無需特定訓(xùn)練即可理解并應(yīng)對全新的情境。這款模型基于DeepMind的最新旗艦AI——Gemini 2.0構(gòu)建。據(jù)DeepMind機器人部門的高級總監(jiān)Carolina Parada介紹,Gemini Robotics通過整合Gemini的多模態(tài)世界理解能力,并加入物理行動的新模態(tài),成功實現(xiàn)了向現(xiàn)實世界的拓展。

Gemini Robotics在構(gòu)建高效機器人所需的三大核心領(lǐng)域——通用性、互動性和靈活性上取得了顯著進展。它不僅能夠靈活應(yīng)對各種新情境,還在與人類及環(huán)境的互動中展現(xiàn)出更出色的表現(xiàn),甚至能夠執(zhí)行如折紙、打開瓶蓋等精細的物理操作。
另一款新模型名為Gemini Robotics-ER(具象推理),DeepMind將其描述為一種能夠“理解復(fù)雜且動態(tài)世界”的先進視覺語言模型。Parada進一步解釋,當(dāng)執(zhí)行如裝便當(dāng)盒等任務(wù)時,機器人需要考慮桌上物品的位置及操作步驟,而Gemini Robotics-ER正是為解決此類推理任務(wù)而設(shè)計的。通過該模型,機器人專家可以與現(xiàn)有的低級控制系統(tǒng)對接,解鎖由Gemini Robotics-ER驅(qū)動的新功能。
在安全性方面,DeepMind的研究員Vikas Sindhwani透露,公司正在開發(fā)一種“分層安全策略”,并已訓(xùn)練Gemini Robotics-ER模型評估在特定情境下某個動作的安全性。同時,DeepMind還發(fā)布了新的基準(zhǔn)和框架,以推動AI領(lǐng)域的安全研究。去年DeepMind還推出了受艾薩克·阿西莫夫啟發(fā)的“機器人憲法”,作為機器人的行為規(guī)范。
在合作方面,DeepMind與Apptronik攜手致力于“打造下一代人形機器人”。DeepMind還向包括Agile Robots、Agility Robotics、波士頓動力和Enchanted Tools在內(nèi)的多家“受信任的測試者”開放了Gemini Robotics-ER模型。Parada表示:“我們專注于打造能夠理解物理世界并在其中行動的智能,非常期待將這一技術(shù)應(yīng)用于更廣泛的領(lǐng)域和表現(xiàn)形式。”






