跑酷是一項極限運動,對機器人特別是四足機器狗來說,更是一項巨大的挑戰,需要在複雜的環境中快速克服各種障礙。一些研究嘗試使用參考動物數據或複雜的獎勵,但這些方法產生的「跑酷」技能要么多樣但盲目,要么基於視覺但特定於場景。然而,自主跑酷需要機器人學習基於視覺且多樣化的通用技能,以感知各種場景並迅速做出反應。
最近,一個機器狗跑酷的影片火了,影片中的機器狗在多種場景中迅速克服了各種障礙。例如,從鐵板下方的縫隙穿過,爬上木箱,再跳到另一個木箱上,一連串動作行雲流水:
##這串動作說明機器狗已經掌握了貼地爬行、攀爬和跳躍三個基本技能
#它還有一個特殊的技能:能夠傾斜擠過狹窄的縫隙
如果機器狗未能克服障礙,它會多試幾次:
#該內容已經被重寫成中文: 這款機器狗是基於一種為低成本機器人研發的「跑酷」技能學習框架。此框架由上海期智研究院、史丹佛大學、上海科技大學、CMU和清華大學的研究者共同提出,其研究論文已入選CoRL 2023(Oral)。本研究計畫已開源
論文網址:https://arxiv.org/abs/2309.05665
#計畫地址:https://github.com/ZiwenZhuang/parkour
該研究推出了一種新的開源系統,用於學習基於視覺的端到端跑酷策略,以使用簡單的獎勵來學習多種跑酷技能,而無需任何參考運動數據。
具體來說,這項研究提出了一種強化學習方法,旨在讓機器人學會攀爬高障礙、跳過大間隙、在低障礙下爬行、擠過狹小縫隙和跑步等技能,並將這些技能轉化為基於單一視覺的跑酷策略。同時,透過使用以自我為中心的深度相機,將這些技能遷移到四足機器人上
#為了在低成本機器人上成功部署該研究提出的跑酷策略,只需使用機載計算(Nvidia Jetson)、機載深度攝影機(Intel Realsense)和機載電源,而不需要動作捕捉、雷射雷達、多個深度攝影機和大量計算
為了訓練跑酷策略,研究共進行如下三個階段的工作:
第一階段:強化學習預訓練,具備軟動態限制。研究採用自動課程讓機器人學習穿越障礙物,鼓勵機器人逐漸學會克服障礙
第二階段:具有 hard 動態限制的強化學習微調。研究在這個階段強制執行所有動態約束,並用現實動態(realistic dynamics)微調機器人在預訓練階段學到的行為。
第三階段:蒸餾。在學習了每個單獨的跑酷技能後,該研究使用DAgger 將它們蒸餾成一個基於視覺的跑酷策略(由RNN 參數化),該策略可以僅使用機載感知和計算部署到腿式機器人上。
在訓練中,該研究為每種技能設定了相應的障礙物尺寸,如下表1 所示:
該研究進行了大量的模擬和現實實驗,結果表明,跑酷策略使低成本四足機器人能夠自主選擇和執行適當的跑酷技能,僅使用機載計算、機載視覺感測和機載電源即可穿越開放世界中具有挑戰性的環境,包括爬高0.40m(1.53x 機器人高度)的障礙物,跳過0.60m(1.5x 機器人長度)的大間隙,在0.2m(0.76x 機器人高度)的低障礙物下爬行,透過傾斜擠過0.28m 的細縫(小於機器人寬度),可以一直跑步前進。
此外,研究也對所提出的方法與幾個基準方法進行了比較,並在模擬環境中進行了消融實驗。具體結果如表2所示:
如有興趣的讀者可閱讀原始論文,以深入了解更多研究內容
#以上是攀爬、跳躍、過窄縫,開源強化學習策略讓機器狗跑酷了的詳細內容。更多資訊請關注PHP中文網其他相關文章!