在人工智能與機(jī)器人技術(shù)的交匯點(diǎn)上,浙江大學(xué)控制學(xué)院的副教授朱秋國(guó)與云深處科技的創(chuàng)始人,分享了他在人形機(jī)器人與四足機(jī)器人研究領(lǐng)域的深厚積累。自2019年起,他與國(guó)外學(xué)者合作,將強(qiáng)化學(xué)習(xí)(RL)引入到傳統(tǒng)控制方法中,為機(jī)器人研究帶來了新的突破。
在近期的一次討論中,來自不同領(lǐng)域的專家圍繞“RL + Control”的主題展開了深入探討。王建明老師作為主持人,首先提出了一個(gè)引人深思的問題:為何眾多學(xué)者早在AI與機(jī)器人結(jié)合的浪潮到來之前,就選擇在這個(gè)領(lǐng)域深耕?
石冠亞教授分享了他的觀點(diǎn)。他認(rèn)為,機(jī)器人研究之所以吸引他,是因?yàn)樗且粋€(gè)綜合性的系統(tǒng)工程,涵蓋了從“大腦”算法到“小腦”控制,再到硬件設(shè)計(jì)的各個(gè)方面。他引用了導(dǎo)師Joel W. Burdick的觀點(diǎn),即每次機(jī)器人領(lǐng)域成為風(fēng)口時(shí),都會(huì)留下對(duì)領(lǐng)域發(fā)展有重大貢獻(xiàn)的成果,為下一次浪潮奠定基礎(chǔ)。
朱秋國(guó)教授則講述了自己從雙足人形機(jī)器人到四足機(jī)器人的研究歷程。他指出,人形機(jī)器人是一個(gè)極佳的研究平臺(tái),但要讓機(jī)器人走出實(shí)驗(yàn)室,適應(yīng)復(fù)雜環(huán)境并實(shí)現(xiàn)實(shí)際應(yīng)用,需要經(jīng)歷長(zhǎng)時(shí)間的探索與迭代。他強(qiáng)調(diào)了熱愛與堅(jiān)持對(duì)于機(jī)器人研究的重要性。
羅劍嵐博士從控制理論的角度出發(fā),分享了他對(duì)強(qiáng)化學(xué)習(xí)的看法。他提到,在傳統(tǒng)的控制方法中,狀態(tài)估計(jì)與控制往往是分離的,這在處理復(fù)雜操作時(shí)面臨很大挑戰(zhàn)。而強(qiáng)化學(xué)習(xí)通過端到端的方法,直接從感知到控制進(jìn)行優(yōu)化,為操作任務(wù)提供了新的解決思路。
盧宗青教授則從強(qiáng)化學(xué)習(xí)算法的角度,分享了他對(duì)機(jī)器人研究的見解。他認(rèn)為,雖然現(xiàn)有的強(qiáng)化學(xué)習(xí)算法在實(shí)踐中表現(xiàn)良好,但針對(duì)機(jī)器人學(xué)習(xí)的特性進(jìn)行定制化設(shè)計(jì),仍有很大的探索空間。他強(qiáng)調(diào)了與物理世界交互的重要性,并指出這是提升機(jī)器人智能的關(guān)鍵。
在討論RL和Control在機(jī)器人移動(dòng)能力(Locomotion)上的應(yīng)用時(shí),石冠亞教授提出了一個(gè)有趣的觀點(diǎn):他認(rèn)為RL和Control本質(zhì)上都是解決同一個(gè)問題的方法,而非獨(dú)立的方法論。他詳細(xì)解釋了Sim2Real RL與基于模型的控制(MBC)在算力運(yùn)用和狀態(tài)估計(jì)方面的差異,并強(qiáng)調(diào)了將RL與Control相結(jié)合的重要性。
朱秋國(guó)教授則從產(chǎn)業(yè)化的角度,分享了他在四足機(jī)器人控制方面的經(jīng)驗(yàn)。他提到,雖然傳統(tǒng)控制方法在某些場(chǎng)景下表現(xiàn)穩(wěn)定,但RL在展現(xiàn)機(jī)器人全身運(yùn)動(dòng)能力方面更具優(yōu)勢(shì)。他強(qiáng)調(diào)了在實(shí)際應(yīng)用中,需要根據(jù)具體場(chǎng)景選擇合適的控制方法,并逐步將RL與傳統(tǒng)控制方法相結(jié)合。
在探討操作(Manipulation)方面時(shí),羅劍嵐博士強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)在處理外部世界不確定性方面的優(yōu)勢(shì)。他指出,與Locomotion不同,Manipulation面臨的主要挑戰(zhàn)來自外部世界的不確定性,而強(qiáng)化學(xué)習(xí)通過與環(huán)境的交互,能夠更好地適應(yīng)這種不確定性。
關(guān)于商用機(jī)器人的可靠性問題,專家們一致認(rèn)為,要達(dá)到99%以上的可靠性是一個(gè)巨大的挑戰(zhàn)。他們提出,除了技術(shù)層面的突破外,還需要結(jié)合場(chǎng)景需求進(jìn)行定制化設(shè)計(jì),并逐步通過真實(shí)世界的數(shù)據(jù)進(jìn)行驗(yàn)證與優(yōu)化。
最后,關(guān)于RL算法本身的創(chuàng)新空間,專家們認(rèn)為雖然現(xiàn)有的PPO、SAC等算法在實(shí)踐中表現(xiàn)良好,但針對(duì)機(jī)器人學(xué)習(xí)的特性進(jìn)行定制化設(shè)計(jì)仍有很大的探索空間。他們強(qiáng)調(diào)了持續(xù)創(chuàng)新的重要性,并期待未來能有更多針對(duì)機(jī)器人領(lǐng)域的強(qiáng)化學(xué)習(xí)算法出現(xiàn)。

整場(chǎng)討論中,專家們不僅分享了各自的研究成果和經(jīng)驗(yàn),還就RL與Control在機(jī)器人研究中的應(yīng)用、挑戰(zhàn)與未來方向進(jìn)行了深入交流。這次討論不僅為機(jī)器人領(lǐng)域的研究者提供了寶貴的啟示,也為未來機(jī)器人技術(shù)的發(fā)展指明了方向。






