亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

近些年,隨著服務型機器人和民用無人設備的快速發展,傳統依靠人手工編程設計規則實現的基于規則判斷的確定性的機器人操作和規劃正面臨著越來越大的挑戰:隨著任務的逐漸復雜化和場景的動態化,機器人所面對的操作環境和過程的復雜程度快速上升,使得規則難以設計;另一方面,用戶對服務型機器人和無人設備的行為親和性提出了更高的要求,機器人需要在與人合作過程中采取更適應人類習慣,更個性化的行為模式,即從人適應機器逐步向機器適配人發展,這就使機器人行為的可學習性與適應性變得格外重要。

 

早先為賦予機器人執行任務的能力,在機械和自動化領域已有大量成熟的不基于學習的方法,其特點為使用了大量的預先設計的操作與決策規則。代表性的如使用軟件編程方式實現的序列操作邏輯、使用目標相關的引導函數直接完成對行為的逆運動學優化求解、使用軌跡跟隨方式直接控制機器人執行給定軌跡和遠程遙操作機器人行為等。機器人實驗室建設在目前主流的機器人任務環境中擁有廣泛的應用,但仍有不足:在設計規則或任務優化函數時,需要對機器人的機械結構、性能有較清晰的建模;對環境的確定性有較為嚴格的假設要求,在遙操作中對操作者的操作水平、操作通信的實時性有較高的要求,這些要求隨著機器人在道路、室內等非結構化環境中的逐步普及,變得越來越難以滿足。基于青少兒機器人學習方法依賴現存的方法發展而來,通過從數據中的學習完成對策略的調整,不斷地降低機器人操作策略制定中人參與的部分;同時通過探索學習,自主實現對環境的建模,從而放松對環境和自身機械結構建模的依賴。

解析服務型智能機器人的學習方法論

 


不同于使用預先設計的規則實現操作任務,機器人技能學習強調在動態變化的環境中,在給定的任務下,利用大量數據或仿真提供的信息,動態交互地自主實現任務技能學習,并使用學習得到的策略在動態的環境中完成任務規劃。創未來機器人作為一種學習方法,數據的質量和形式極大地影響著學習效果的好壞。對于離散時間(多步)決策序列,我們定義每一個決策時刻所依據的有限信息為,在此時刻執行的有限決策行為為,所構成的行為序列軌跡為。學習的數據為由行為序列構成的集合,學習的對象是任意狀態下的決策策略。現有的兩種常見的數據獲取和策略優化方式為:


給出人工指定的函數來指導策略學習的強化學習類方法:使用建模在行為序列上的回報函數和建模序列行為的好壞,通過動態規劃迭代求取最優策略。機器人課程教案與兒童機器人編程此方法適用于序列中每一時刻的行為優劣都有清晰明確的定義的情形,即較高的回報函數和代表較好的執行效果。此時我們可以通過大量的迭代探索,實現對回報函數的優化,同時得到大量較優的行為軌跡以進行策略的學習。

此方法以最大化與專家示教策略的相似程度作為學習目標,適用于任務指標難以明確,回報函數難以設計的場合。可以通過遙操作或專家在回路中的操作來獲得。得到專家示教序列后,可以通過不斷地環境交互實現最大化重現專家狀態,進而最大化重復專家的決策行為。目前常見的使用回報函數定義最優策略并進行學習的方法為強化學習方法,強化學習方法通過定義一套值函數,并借助環境探索遍歷迭代完成對值函數的采樣與近似。教學教具 機器人其中值函數的物理意義為在當前策略下,在狀態或在狀態而做出動作所得到的預期回報函數和,即代表了對當前策略在當前情形下的最優性的判斷。通過每次采用最大化回報函數的策略,或按照回報函數增長方向更新現有策略,即可學習得到更好的行為決策模型。此類方法由于其目標為最優化回報函數期望和,因此效果好壞嚴格依賴回報函數本身的定義是否足夠嚴謹,對較差軌跡的區分是否足夠顯著。


目前常見的使用示教軌跡定義最優策略并進行學習的方法為模仿學習方法。模仿學習方法通過定義一種建立在專家決策序列和當前策略產生的序列之間的相似性度量,或直接建立策略之間的相似性度量,并使之最大化(或最小化)來完成對專家示教中蘊含策略的學習。機器人早教常見的模仿學習方法分為兩大類,其一為直接通過在示教樣本上的監督學習來學習專家策略,數學描述為在專家決策序列每一時刻的狀態-決策對下,監督式的學習,從而使得在每個專家狀態上,最大可能性的復現專家示教的決策行為。

 

這種做法在面對確定性環境時較為快捷,但無法應對動態環境下未知狀態帶來的影響,即當實際執行時,由于累計誤差和噪聲等因素的影響,機器人到達未出現在專家示教序列中的狀態時,其決策行為將無法得到有效保證。另一種方法是使用逆強化學習,借助環境探索,機器人少兒評價,不僅要求在專家示教包含的狀態上做出相似于專家的決策行為,同時通過在整個觀測空間回歸代價函數并進行優化,使得學習到的策略在未包含在示教中的狀態上,做出最大可能回到示教狀態的行為。在兒童機器人方案中,不管使用監督學習或逆強化學習中的何種方式,模仿學習方法由于學習目標在模仿專家行為,因此對專家示教的數量和質量都提出了極高的要求,在示教較少,質量不好的情況下,很難進行有效的學習。

 

作為一種人在回路中的學習方法,傾向性學習的核心是人參與交互的便捷性,其中包括盡可能少的交互次數、盡可能充分的對樣本的利用、盡可能符合人習慣的傾向性信息獲取方式。編程機器人在以上三種傾向性學習方式中,第一種方式雖然較為簡單直觀,但要求專家在機器人每一次決策時給出判斷,效率較低;第二種方式的學習穩定性依賴每一次交互得到的傾向性建模好壞,對策略缺少合理的約束使得求解效率低下;第三種方式將傾向性學習問題轉化為一種類似于對傾向性選擇得到結果的模仿學習,具備模仿學習的高效性和穩定性,但不適用于以排序為呈現形式的傾向性數據。

 

綜上所述,通過借助示教的強化學習和傾向性學習,我們可以部分解決示教和回報函數質量不高或難以提供情形下的學習問題,面對現實生活中的機器人操作技能學習問題,在已經充分建模的確定性環境如生產線中,科學機器人現有的基于學習的方法仍難以取代基于手工方式設計實現的傳統意義下的機器人控制器。相關領域的研究目前仍處在實驗室階段,但由于學習方法能夠明顯減輕人工設計規則的壓力,同時從原理上能夠有效地應對動態環境與交互操作需求,基于學習的方法有極大的研究必要性,相關領域也在快速發展中。此份簡述僅作為對其中兩個小方向的部分總結,機器人操作技能學習領域仍有大量待解決的問題,值得進行更深入的探討。

分享到:
標簽:機器人
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定