首頁  >  文章  >  科技週邊  >  谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

PHPz
PHPz轉載
2023-04-21 19:34:081463瀏覽

注意看,眼前的這個男人正對著一個機器人不斷發出自然語言指令,如「把綠色的星星推到紅色塊之間」、「把藍色的方塊移動到左下角」,機器人對每一次輸入的指令都可以即時完成。

自1960年代開始,機器人專家就開始嘗試讓機器人聽懂人的「自然語言指令」,並執行具體的行動。

理想情況下,未來的機器人將對使用者能夠用自然語言描述的任何相關任務做出即時反應。

特別是在開放的人類環境中,使用者可能需要在機器人行為發生時自訂行為,提供快速修正,例如「停止,將手臂向上移動一點」或指定限制“慢慢向右移動”。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

此外,即時語言可以使人和機器人更容易在複雜的長期任務中進行協作,人們可以迭代和互動式地指導機器人操作,偶爾會有語言回饋。

目前的相關工作大體可以分為以下三個部分:

1、機器人本體需要存在於現實世界;

2、能夠回應大量且豐富的自然語言指令;

#3、能夠執行互動式的(interactive)語言指令 ,即機器人需要在任務執行的過程中接受新的自然語言指令。

對於第三點來說,目前機器人領域在互動式方面的發展速度仍然非常緩慢,也讓機器人缺乏「生命感」。

最近Google發表了一篇論文,提出了一個全新的框架,可以生產真實世界的、即時互動的、執行自然語言指令的機器人,並且相關資料集、環境、基準測試和策略都已開放使用。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

論文連結:https://arxiv.org/pdf/2210.06407.pdf

專案首頁:https://interactive-language.github.io/

透過數十萬個語言標註軌跡的資料集進行行為克隆訓練,產生的策略可以熟練地執行比以前的工作實現了多一個數量級的命令。在現實世界中,研究人員估計該方法在87,000個不同的自然語言字串上有93.5%的成功率。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

並且同樣的策略能夠被人類透過自然語言進行即時引導,以解決廣泛的精確的長距離重新排列目標,例如「用積木做個笑臉」等。

隨論文共同發布的資料集包括近60萬個語言標記的軌跡,比之前的可用資料集也要大一個數量級。

互動式語言:與機器人即時對話

想要讓機器人融入現實世界中,最重要是能夠處理開放式的自然語言指令,但從機器學習的角度來看,讓機器人學習開放詞彙表語言是一個巨大的挑戰。

開放式代表模型需要執行大量任務,包括小的修正指令等。現有的多任務學習設定利用精心設計的模仿學習資料集或複雜的強化學習獎勵功能來驅動每個任務的學習,透過這種方式設計的預定義集合注定不會很大。

因此,在開放詞彙表任務中一個關鍵的問題是: 應該如何擴展機器人資料的收集過程,使其能夠涵蓋真實環境中成千上萬的行動,以及如何將所有這些行為與最終用戶可能實際提供的自然語言指令聯繫起來?

在互動式語言中,Google提出的大規模模擬學習框架關鍵是創建大型、多語言條件的機器人演示資料集的可擴展性。

和先前設定中需要定義所有的技能,然後收集每個技能策劃的示範不同的是,研究人員不斷在跨多個機器人在無場景重置(scene resets )或低階技能分割(low level skill segmentation)的情況下收集資料。

所有的數據,包括失敗的數據(如把塊從桌子上敲下來 knocking blocks off a table),都要經過一個hindsight language relabeling的過程才能與文本配對。

在這個過程中,標註人員需要觀看長長的機器人影片來識別盡可能多的行為,標記每個行為的開始和結束時間,並使用無限的形式自然語言來描述每個片段。

最重要的是,與先前設定的引導相比,所有用於訓練的技能都是從資料本身自下而上顯示出來的,而非由研究人員預先確定的。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

研究人員有意將學習方法和架構盡可能簡化,機器人策略網絡是一個交叉注意力Transformer,將5赫茲的視頻和文本映射到5赫茲的機器人動作,在沒有輔助損失(auxiliary losses)的情況下使用標準的監督式學習行為克隆目標。

在測試時,新的自然語言指令可以透過speech-to-text以高達5赫茲的速率傳送到策略網路。

開源基準

在標註過程中,研究人員收集了一個Language-Table資料集,其中包含超過44萬實際和18萬模擬的機器人執行自然語言命令的演示,以及機器人在演示過程中採取的動作順序。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

這也是當下最大的基於語言條件的機器人演示(language-conditioned robot demonstration)資料集,直接提升了一個數量級。

Language-Table 推出了一個模擬模擬學習基準,可以用它來進行模型選擇,或是用來評估不同方法訓練所得到的機器人執行指令的能力。

即時語言行為學習

在實驗中,研究人員發現,當機器人能夠跟隨即時輸入的自然語言指令時,機器人的能力就會顯得特別強大。

在專案網站中,研究人員展示了使用者可以只使用自然語言就能引導機器人透過複雜的長視野序列(long-horizo​​n sequences)來解決需要較長時間才能精確協調控制的目標。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

例如在桌上有許多blcoks,指令可以是「用綠眼睛做一個笑臉」或「把所有的放在一條垂直線上”等。

因為機器人被訓練去跟隨開放的詞彙語言,所以在實驗中能夠看到機器人可以對一系列不同的口頭修正做出反應,例如“輕輕地向右移動紅色的星星」。

最後,研究人員探索了即時語言的優勢,例如可以讓機器人資料收集變得更加高效,一個人類操作員可以同時使用口語控制四個機器人,有可能在未來擴大機器人資料收集的規模,而不需要為每個機器人配備一個標註員。

結論

雖然該專案目前僅限於桌面上的一套固定的物體,但互動式語言的實驗結果可以初步表明,大規模模仿學習確實可以生產出即時互動式機器人,能夠遵循自由形式的終端使用者命令。

為了推動實體機器人即時語言控制技術的進步,研究人員開源了Language-Table,也是目前最大的基於語言條件下的真實世界機器人演示資料集,也可以作為相關的模擬基準。

研究人員認為,這個資料集的作用可能不僅限於機器人控制領域,而且可能為研究語言和動作條件視訊預測、機器人視訊條件語言建模,或在更廣泛的機器學習環境中研究其他許多有趣的活躍問題提供一個新起點。

以上是谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除