波士頓動力的一個後空翻,讓我們看到了人造機器人所帶來的無限可能。
#儘管Google已於2017年把波士頓動力出手了,但谷歌仍然繼續他們的機器人開發之路,不只是在“身體”上逼近人類,在“智力」也追求更好的理解人類指令。
由Jeff Dean領導的Google Research年終總結系列「Google Research, 2022 & beyond」已更新到第六期,本期的主題是「機器人」,作者為資深產品經理Kendra Byrne與Google機器人研究科學家Jie Tan
在我們的有生之年,一定能看到機器人技術參與人類的日常生活中,幫助提高人類的生產力和生活品質。
在機器人技術廣泛應用於以人為中心的空間(即為人而設計的空間,而不是機器)中的日常實際工作之前,需要確保它們能夠安全地為人們提供幫助。
在2022年,Google關注的挑戰是使機器人更有助於人類:
大型語言模型(LLM)的一個特性是能夠將描述和上下文編碼成「人和機器都能理解」的格式。
當把LLM應用到機器人技術時,可以讓使用者僅透過自然語言指令就能給機器人分配任務;當與視覺模型和機器人學習方法結合時,LLM 為機器人提供了一種理解使用者請求的上下文的方法,並能夠對完成請求所採取的行動進行規劃。
其中一個基本方法是使用 LLM 來提示其他預先訓練的模型獲取信息,以構建場景中正在發生的事情的上下文,並對多模態任務進行預測。整個過程類似蘇格拉底式的教學方法,教師問學生問題,引導他們透過一個理性的思考過程來解答。
在「蘇格拉底模型」中,研究人員證明了這種方法可以在zero-shot圖像描述和視訊文字檢索任務中實現最先進的性能,並且還能支援新的功能,例如回答關於影片的free-form問題和預測未來的活動,多模態輔助對話,以及機器人感知和規劃。
論文連結:https://arxiv.org/abs/2204.00598
在「邁向有益的機器人: 機器人可用性的基礎語言」一文中,研究人員與Everyday Robots合作,在機器人可用性模型中基於PaLM語言模型規劃長期任務。
#部落格連結:https://ai.googleblog.com/2022/08/towards-helpful-robots-grounding.html
在之前的在機器學習方法中,機器人只能接受諸如“撿起海綿”等簡短的硬編碼命令,並且難以推理完成任務所需的步驟,如果任務是一個抽象的目標,比如“你能幫忙清理這些灑出來的東西嗎?」,就更難處理了。
研究人員選擇使用 LLM 來預測完成長期任務的步驟順序,以及一個表示機器人在給定情況下實際能夠完成的技能的affordance 模型。
強化學習模型中的價值函數可以用來建立affordance 模型,即機器人在不同狀態下可以執行的動作的抽象表示,從而將現實世界中的長期任務,如“整理臥室”與完成任務所所需的短期技能,如正確挑選、放置和安排物品等連結起來。
論文連結:https://arxiv.org/abs/2111.03189
同時擁有LLM 和affordance 模型並不代表機器人能夠成功地完成任務,透過內在獨白( Inner Monologue),可以結束基於LLM 的任務規劃中的循環;利用其他資訊來源,如人工回饋或場景理解,可以偵測機器人何時無法正確完成任務。
論文連結:https://arxiv.org/abs/2207.05608
利用Everyday Robots中的一個機器人,研究人員發現LLM 可以有效地重新規劃當前或以前的失敗規劃步,機器人可以從失敗中恢復並完成複雜的任務,例如「把一個可樂放在最上面的抽屜裡」。
在基於LLM 的任務規劃中,其中一個突出能力就是機器人可以對高階目標中間任務的變化做出反應:例如,使用者可以告訴機器人在發生的事,透過提供快速糾正或重新導向機器人到另一個任務,從而可以改變已經規劃好的行動,對於讓使用者互動式地控制和自訂機器人任務特別有用。
雖然自然語言使人們更容易指定和修改機器人的任務,但還有一個挑戰是對人類描述做出即時反應。
研究人員提出了一個大規模的模仿學習框架,用於生產即時的、開放詞彙的、以語言為條件的機器人,能夠處理超過87,000個獨特的指令,估計平均成功率為93.5 % ;作為該專案的一部分,Google也發布了當下規模最大的語言標註機器人資料集Language-Table
論文連結:https://arxiv.org/ pdf/2210.06407.pdf
並且,用LLM 寫程式來控制機器人動作也是一個有前景的研究方向。
研究人員開發的程式碼編寫方法展示了增加任務複雜性的潛力,機器人可以透過自主生成新程式碼來重新組合API 調用,合成新函數,並表達反饋循環來在運行時合成為新行為。
論文連結:https://arxiv.org/abs/2209.07753
大型語言和多模態模型可以幫助機器人理解他們操作的環境,例如場景中發生了什麼以及機器人應該做什麼;但是機器人也需要低層次的物理技能來完成物理世界中的任務,例如拾起和精確放置物體。
雖然人類經常認為這些身體技能是理所當然的,無需思考的情況下就能完成各種動作,但對機器人來說卻是個難題。
例如,當機器人在拾取物體時,需要感知和理解環境,推導出手爪與物體之間的空間關係和接觸動力學,精確地驅動高自由度手臂,並施加適當的力量以穩定地抓取物體而不破壞物體。
學習到這些低層次技能的難題被稱為莫拉維克悖論:推理只需要很少的計算,但感覺運動和知覺技能需要大量的計算資源。
受到LLM 的成功啟發,研究人員採用一種資料驅動的方法,將學習低層次物理技能的問題轉變為一個可擴展的資料問題:LLM 表明,大型Transformer模型的通用性和效能隨著數據量的增加而增加。
論文連結:https://robotics-transformer.github.io/assets/rt1.pdf
研究人員提出機器人Transformer -1 (RT-1) 模型,訓練了一個機器人操作策略,用到的訓練資料為13萬個episodes的大規模現實世界的機器人資料集,使用了來自Everyday Robots的13個機器人,涵蓋了700多個任務,並顯示了機器人技術的相同趨勢,即增加資料的規模和多樣性可以提高模型對新任務、環境和物件的泛化。
在語言模型和機器人學習方法(如RT-1)的背後,都是Transformer模型基於互聯網規模的資料訓練得到的;但與LLM 不同的是,機器人學面臨著不斷變化的環境和有限計算的多模態表示的挑戰。
2020年,Google提出了一種能夠提高Transformer運算效率的方法Performers,影響到包括機器人技術在內的多個應用場景。
最近研究人員擴展此方法,引入一類新的隱式控制策略,結合了模擬學習的優勢和對系統約束的穩健處理(模型預估計控制的約束)。
論文連結:https://performermpc.github.io/
與標準的MPC 策略相比,實驗結果顯示機器人在實現目標方面有40% 以上的進步,在人類周圍導航時,social指標上有65% 以上的提升;Performance-MPC 為8.3 M 參數模型的延遲僅為8毫秒,使得在機器人上部署Transformer變得可行。
Google的研究團隊也證明,數據驅動方法通常適用於不同環境中的不同機器人平台,以學習廣泛的任務,包括行動操作、導航、運動和乒乓球等,也為學習低層次機器人技能指明了一條明確的道路:可擴展的資料收集。
與網路上豐富的影片和文字資料不同,機器人資料極為稀缺,難以獲取,收集和有效使用代表真實世界互動的豐富資料集的方法是資料驅動方法的關鍵。
模擬是一種快速、安全且易於並行化的選擇,但是在模擬中很難複製完整的環境,特別是物理環境和人機互動環境。
論文連結:https://arxiv.org/abs/2207.06572
在i-Sim2Real 中,研究人員展示了一種方法,透過從簡單的人類行為模型中自舉,並在模擬訓練和在現實世界中部署之間交替進行,來解決模擬與現實之間的不匹配問題,並學習與人類對手打乒乓球,在每次迭代中,人類行為模型和策略都會被細化。
雖然模擬可以輔助收集數據,但是在現實世界中收集數據對於微調模擬策略或在新環境中適應現有策略至關重要。
在學習過程中,機器人很容易失敗,並可能會對它自身和周圍環境造成損害,特別是在探索如何與世界互動的早期學習階段,需要安全地收集訓練數據,使得機器人不僅學習技能,還可以從故障中自主恢復。
論文連結:https://arxiv.org/abs/2110.05457
研究人員提出了一個安全的RL 框架,在「學習者策略」和「安全恢復策略」之間進行切換,前者優化為執行所需任務,後者防止機器人處於不安全狀態;訓練了一個重設策略,這樣機器人就能從失敗中恢復過來,例如在跌倒後學會自己站起來。
雖然機器人的資料很少,但是人類執行不同任務的影片卻很多,當然機器人和人的構造有不同之處,因此讓機器人向人類學習的想法引發了「 跨不同實體遷移學習」的問題。
論文連結:https://arxiv.org/pdf/2106.03911.pdf
研究人員開發了交叉具身反向強化學習(Cross-Embodiment Inverse Reinforcement Learning),透過觀察人類來學習新的任務,並非是試圖像人類那樣精確地複製任務,而是學習高層次的任務目標,並以獎勵函數的形式總結這些知識,示範學習可以讓機器人透過觀看網路上隨時可用的影片來學習技能。
另一個方向是提高學習演算法的數據效率,這樣就不再僅僅依賴擴展數據收集:透過合併先驗信息,包括預測信息、對抗性動作先驗和指導策略,提高了RL方法的效率。
論文連結:https://arxiv.org/abs/2210.10865
利用一種新的結構化動力系統體系結構,將RL 與軌跡優化相結合,在新型求解器的支持下,得到了進一步的改進,先驗資訊有助於緩解勘探的挑戰,更好地規範數據,並大大減少了所需的數據量。
此外,機器人團隊也投入了大量的資金在更有效的資料模擬學習上,實驗證明了一種簡單的模仿學習方法BC-Z 可以對訓練中沒有看到的新任務進行zero -shot泛化。
論文連結:https://arxiv.org/pdf/2210.02343.pdf
並且還引入了一個迭代模仿學習演算法GoalsEye,從遊戲中學習和目標條件行為克隆相結合,用於高速高精度的乒乓球遊戲。
論文連結:https://sites.google.com/view/goals-eye
在理論方面,研究人員研究了表徵模擬學習樣本複雜性的動態系統穩定性,以及捕捉演示資料中的失效和恢復以更好地調節小資料集離線學習的作用。
論文連結:https://proceedings.mlr.press/v168/tu22a.html
人工智慧領域大型模型的進步促進了機器人學習能力的飛躍。
在過去的一年裡,可以看到 LLM 中捕捉到的上下文感覺和事件順序幫助解決機器人技術的長期規劃,並使機器人更容易與人互動和完成任務。還可以看到用可擴展的路徑來學習穩健性和泛化機器人行為,透過應用Transformer模型架構的機器人學習。
Google承諾將繼續開放原始碼資料集,在新的一年繼續發展有用的機器人。
以上是Google AI年終總結第六彈:沒有波士頓動力的Google機器人,發展得怎麼樣了?的詳細內容。更多資訊請關注PHP中文網其他相關文章!