亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

英偉達(dá)Eureka在超過80%的任務(wù)中都超越人類專家,讓機(jī)器人平均性能提升到50%以上。

訓(xùn)練機(jī)器人,AI比人類更拿手!

英偉達(dá)最新AI AgentEureka ,用GPT-4生成獎勵函數(shù),結(jié)果教會機(jī)器人完成了三十多個復(fù)雜任務(wù)。

比如,快速轉(zhuǎn)個筆,打開抽屜和柜子、拋球和接球。

用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手

尤其是轉(zhuǎn)筆這個技能,要知道靠人類逐幀制作動畫,也是非常困難的。

最終,Eureka在超過80%的任務(wù)中都超越人類專家,讓機(jī)器人平均性能提升到50%以上。

這一研究吸引了數(shù)十萬網(wǎng)友關(guān)注,有人表示:直接快進(jìn)到它彈鋼琴那天,直接為大眾所用。

用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手

 

用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手

英偉達(dá)科學(xué)家,也是此次共同作者之一Jim Fan評價到,它是超級人類獎勵工程師。它可以輔助機(jī)器人工程師設(shè)計(jì)復(fù)雜任務(wù)。

目前該項(xiàng)目完全開源。

GPT-4生成獎勵策略

在機(jī)器人學(xué)習(xí)中,大模型擅長生成高級語義規(guī)劃和中級操作,比如拾取和放置(VIMA、RT-1等),但在復(fù)雜任務(wù)控制方面有所欠缺。

而Eureka的關(guān)鍵所在,就是通過上下文來實(shí)現(xiàn)了人類水平的獎勵算法設(shè)計(jì)。

簡單來說,就是用GPT-4的零樣本生成、代碼編寫以及上下文改進(jìn)功能,對獎勵執(zhí)行策略進(jìn)行優(yōu)化,由此通過強(qiáng)化學(xué)習(xí)來進(jìn)行復(fù)雜的技能。

用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手

研究人員提出了一種混合梯度架構(gòu),外循環(huán)運(yùn)行 GPT-4 來細(xì)化獎勵函數(shù)(無梯度),而內(nèi)循環(huán)運(yùn)行強(qiáng)化學(xué)習(xí)來訓(xùn)練機(jī)器人控制器(基于梯度)。

主要有三個關(guān)鍵組成部分:

模擬器環(huán)境代碼作為上下文啟動初始“種子”獎勵函數(shù)。

GPU上的大規(guī)模并行強(qiáng)化學(xué)習(xí),可以快速評估大量候選獎勵。

獎勵反射reward reflection,得益于GPT-4評估和修改能力,一步步迭代。

首先,無需任何特定提示工程和獎勵模版。使用原始Isaac Gym?。ㄒ环NGPU加速的物理模擬器)環(huán)境代碼作為上下文,生成初始獎勵函數(shù)。

這種無梯度的情境學(xué)習(xí)方式,可以根據(jù)各種形式的人類輸入,生成性能更強(qiáng)、符合開發(fā)人員愿景的獎勵函數(shù)。

其次,Eureka在每個進(jìn)化步驟中都會生成很多候選函數(shù),然后利用強(qiáng)化學(xué)習(xí)訓(xùn)練來進(jìn)行快速評估。

以往這種過程需要幾天甚至幾周來完成,但由Isaac Gym可將模擬時間提高1000倍,強(qiáng)化學(xué)習(xí)內(nèi)循環(huán)能在幾分鐘完成。

最后,依賴于獎勵反射,Eureka還支持一種新形式的上下文 RLHF。它能夠?qū)⑷祟惒僮鲉T的反饋融入自然語言中,以引導(dǎo)和調(diào)整獎勵功能。

最終,在29種不同的開源RL環(huán)境中,83%基準(zhǔn)測試中Eureka都優(yōu)于人類,并實(shí)現(xiàn)了52%改進(jìn)。

用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手

這些環(huán)境包括10種不同的機(jī)器人形態(tài),比如四足機(jī)器人、四旋翼機(jī)器人、雙足機(jī)器人、機(jī)械手等。

用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手

讓研究人員驚訝的是,尤其在處理復(fù)雜、高維電機(jī)控制的任務(wù)上,Eureka表現(xiàn)更好,且與人類獎勵的相關(guān)性越低。

甚至在少數(shù)情況下,AI的策略與人類的策略呈現(xiàn)負(fù)相關(guān)。

用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手

這就有點(diǎn)像當(dāng)年 AlphaGo的下棋策略,人類看不懂學(xué)不會,但十分有效。

英偉達(dá)出品

這項(xiàng)研究由英偉達(dá)、賓夕法尼亞大學(xué)、加州理工學(xué)院、德州大學(xué)奧斯汀分校的研究人員來完成。

用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手

可以看到的是,近半數(shù)研究人員都是華人。

一作是Yecheng Jason Ma,目前是賓大GRASP 實(shí)驗(yàn)室的四年級博士生,研究方向是強(qiáng)化學(xué)習(xí)和機(jī)器人學(xué)習(xí)。

英偉達(dá)科學(xué)家Jim Fan此次也是通訊作者之一。

咳咳,不過至于網(wǎng)友提到的彈鋼琴,Jim Fan自己曾分享過:只需幾個簡單按鈕,AI就能實(shí)時即興生成演奏音樂。

用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手

不知道,未來會不會這樣的呢?(不過,這研究已經(jīng)是2018年的了)

本文作者:白交,來源:量子位,原文標(biāo)題:《用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手》

分享到:
標(biāo)簽:GPT
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定