與OpenAI分道揚鑣后,Figure多次預告的AI新成果,在2月20日晚終于揭曉了答案。Figure發布通用人形機器人控制的視覺-語言-動作(VLA)端到端具身模型Helix。實現了從視覺輸入和自然語言指令到機器人動作的直接映射,克服了傳統方法中需要大量任務特定訓練的限制。其高效訓練、強大泛化能力和多機器人協作功能,使其在人形機器人領域具有顯著優勢和廣闊的應用前景。

從全球范圍來看,無論是特斯拉、PhysicalIntelligence(PI),還是Figure都無一例外采用了端到端的大模型,由此看來,端到端具身大模型是實現具身智能體的重要路徑。各路科技媒體紛紛報道這一世界級新成果。
英雄所見略同?
但有趣的是,機器人大講堂經過深入研究發現,Figure Helix的這一最新模型架構卻與清華姚班團隊在2024年6月發表在CoRL2024的一篇論文中的端到端具身大模型HiRT模型架構高度相似。HiRT還同期應用在了清華系具身智能企業星動紀元自研端到端原生機器人大模型ERA-42上,因此星動也是國內第一個能夠做到One policy for multipletasks,實現端到端原生機器人大模型落地真機的公司。

Figure Helix與清華姚班團隊
2024年6月發布在CoRL2024的端到端具身大模型HiRT架構高度相似
HiRT應用在清華系具身智能企業星動紀元自研端到端原生機器人大模型ERA-42
HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers于2024年6月發表在CoRL2024
論文傳送門:https://arxiv.org/pdf/2410.05273

Figure Helix的端到端機器人大模型架構
技術架構解讀
從論文中可以看到Figure Helix和ERA-42在模型框架結構上高度相似,都采用相同的層次化系統結構,使用latent來連接上層視覺語言模型和下層控制網絡,完全擁有相同的高頻控制特性、泛化能力、端到端架構。
具體來看,Helix和ERA-42都采用了層次化設計。
Helix:采用系統1(S1)和系統2(S2)的雙系統架構。S2是一個擁有70億參數的視覺-語言模型(VLM),處理頻率為7-9Hz,負責高級理解;S1是一個擁有8000萬參數的視覺-運動控制策略,處理頻率為200Hz,負責實時動作控制。
ERA-42:采用高層次規劃和低層次控制的雙系統架構。高層次規劃負責理解任務和生成動作序列,低層次控制負責實時執行動作。高層使用70億參數的Instructblip 視覺語言模型,低層使用4000萬參數的transformer結構,兩種之間使用latent變量進行通信連接。
其次,兩者都采用端到端訓練。
Helix:Helix的訓練是完全端到端的,從原始像素和自然語言指令映射到連續動作輸出,使用標準回歸損失進行訓練。
ERA-42:ERA-42也支持端到端訓練,能夠直接從輸入數據到輸出動作進行學習,無需復雜的中間表示。
第三,兩者都具備強大泛化能力。
Helix:Helix具有強大的泛化能力,能夠處理數千種形狀、大小和材質各異的物品,并且可以在零樣本情況下泛化到新測試對象上。
ERA-42:ERA-42通過層次化的Transformer模型,能夠更好地處理復雜的機器人控制任務,并且在不同的環境和任務中表現出良好的泛化能力。
第四,兩者都可以在機器人上實現實時控制。
Helix:Helix的系統1(S1)能夠以200Hz的頻率輸出精確的機器人動作,實現高精度的動作協調。
ERA-42:ERA-42通過層次化的Transformer模型,能夠實現對機器人動作的實時控制,確保機器人在復雜環境中快速響應。
第五,兩者都用單一神經網絡。
Helix:Helix使用單一的一組神經網絡來學習所有行為,無需進行任何針對特定任務的微調。
ERA-42:ERA-42通過層次化的Transformer模型,能夠在一個統一的框架下處理多種機器人控制任務,無需為每個任務單獨訓練模型。
路線的分化與創新

后期,星動紀元還將世界模型融入原生機器人大模型ERA-42中
Video Prediction Policy:A Generalist Robot Policy with Predictive Visual Representations 于2024年12月發表在arXiv
論文傳送門:https://arxiv.org/pdf/2412.14803
后期,星動紀元采取了一條不同的訓練道路,將世界模型融入,使ERA-42不僅具備行動能力,還具備了對物理世界的理解能力,能夠對未來行動軌跡進行預測,有效提升了機器人執行任務的高效性、準確性和在執行長時序任務時的抗干擾性,使人形機器人商業化應用潛力更進一步。

現實執行任務行動軌跡和ERA-42預測執行任務行動軌跡對比圖,
體現了融入世界模型后ERA-42不僅能夠對未來行動軌跡進行預測,且預測行動軌跡和現實行動軌跡幾乎一致。
此外,強化學習在模型訓練中的應用提升了模型的推理能力和泛化能力。它也為未來人工智能在具身智能體領域的研究和應用提供了新的思路和方法。
例如,DeepSeek通過其GRPO(基于群組采樣的高效大語言模型強化學習訓練方法)實現了更高效和穩定的訓練過程。此外,強化學習還被證明能夠激勵模型自主發展出復雜的行為和解決問題的策略,例如DeepSeek-R1-Zero在訓練過程中展現出的“頓悟時刻”,進一步證明了強化學習在解鎖新智能水平方面的潛力。這些成果表明,強化學習不僅是提升模型性能的關鍵技術,更是未來人工智能發展的必然趨勢。




因此,星動后續模型訓練也采用了強化學習技術,通過獎勵機制引導模型學習最優的動作策略。這些方法使得模型能夠在復雜的環境中自主學習和優化,進一步提升訓練效率、降低訓練成本和提升了模型的泛化能力。(星動紀元發表相關論文:Improving Vision-Language-Action Model with Online Reinforcement Learning 在ICRA 2025)
論文傳送門:https://arxiv.org/pdf/2501.16664
構建通用具身智能體需要軟硬件協同迭代,就像人的“大腦”和“身體”需要同步成長一樣,這也是星動紀元與Figure技術思路相一致的地方。據相關報道顯示,ERA-42協同星動紀元自研全直驅、12個全主動自由度五指靈巧手星動XHAND1以及高性能通用人形機器人星動STAR1能夠能夠執行靈巧高精度任務。目前星動XHAND1已學會了使用不同工具完成100多種復雜靈巧操作精細化任務,并且持續在同一個模型下學習新的技能。
基于端到端原生機器人大模型以及為AI設計的硬件平臺,國內企業在推動原生通用具身智能體產業落地方面已具備一定優勢。隨著技術的不斷進步與完善,有望在未來的全球市場競爭中占據有利地位,并加速實現機器人的廣泛應用。






