僅僅透過使用7500條軌跡資料進行訓練,這個機器人可以展示出12種不同的操作技能,在38個任務中,不僅限於拾取和推動,還包括關節物件操縱和物件重新定位。而且,這些技能還可以應用於數百個不同的未知情境,包括未知物體、未知任務,甚至完全未知的廚房環境。這樣的機器人真的很酷吧!
數十年來,創造一個能夠在不同環境中操縱任意物體的機器人一直是個遙不可及的目標。其中一個原因是缺乏多樣化的機器人資料集,無法訓練這樣的智能體,同時也缺乏能夠產生此類資料集的通用智能體
為了克服這個難題,來自卡內基美隆大學和Meta AI的作者花了兩年時間開發了一個通用的RoboAgent。他們的主要目標是發展一個高效的範例,可以在資料有限的情況下訓練一個能夠具備多種技能的通用智能體,並將這些技能推廣應用於各種未知情境
RoboAgent 由以下模組化構成:
建構一個能夠在許多不同情境下推廣的機器人智能體,首先需要一個具有廣泛覆蓋範圍的資料集。鑑於擴大規模的努力通常會有所幫助(例如,RT-1 展示了約130,000 條機器人軌蹟的結果),因此需要在數據集有限的情況下理解學習系統的效率和泛化原則,低數據情境往往會導致過擬合。因此,作者的主要目標是開發一個強大的範例,可以在低數據情境下學習可推廣的通用策略,同時避免過度擬合問題。
機器人學習中的技能與資料全景是一個重要的領域。在機器人學習中,技能是指機器人透過學習和訓練所獲得的能力,可以用來執行特定的任務。這些技能的發展離不開大量的數據支援。數據是機器人學習的基礎,透過分析和處理數據,機器人可以從中學習並改進自己的技能。因此,技能和數據是機器人學習中不可或缺的兩個面向。只有透過不斷學習和獲取新的數據,機器人才能不斷提升自己的技能水平,並在各種任務中展現出更高的智能和效率
用於訓練 RoboAgent 的資料集 RoboSet(MT-ACT)僅包含 7,500 條軌跡(比 RT-1 的資料少 18 倍)。此資料集提前收集並保持凍結狀態。該資料集由在多個任務和場景中使用商品機器人硬體(Franka-Emika 機器人配備 Robotiq 夾具)進行人類遙操作收集的高品質軌跡組成。 RoboSet(MT-ACT)在幾個不同的情境下稀疏地涵蓋了 12 種獨特技能。數據透過將日常廚房活動(如泡茶、烘焙)分為不同的子任務來收集,每個子任務代表一個獨特的技能。資料集包括常見的拾取 - 放置技能,還包括接觸豐富的技能,如擦拭、蓋蓋子,以及涉及關節物體的技能。 重寫後的內容: 用於訓練 RoboAgent 的資料集 RoboSet(MT-ACT)僅包含 7,500 條軌跡(比 RT-1 的資料少 18 倍)。此資料集提前收集並保持凍結狀態。該資料集由在多個任務和場景中使用商品機器人硬體(Franka-Emika 機器人配備 Robotiq 夾具)進行人類遙操作收集的高品質軌跡組成。 RoboSet(MT-ACT)在幾個不同的情境下稀疏地涵蓋了 12 種獨特技能。數據透過將日常廚房活動(如泡茶、烘焙)分為不同的子任務來收集,每個子任務代表一個獨特的技能。資料集包括常見的拾取- 放置技能,還包括接觸豐富的技能,如擦拭、蓋蓋子,以及涉及關節物體的技能
RoboAgent基於兩個關鍵洞察在低資料情境下學習通用策略。它利用基礎模型的世界先驗知識以避免模式崩潰,並採用了一種新穎的高效策略表示,能夠攝取高度多模態的資料
需要進行改寫的內容是:1、語意增強:RoboAgent透過對RoboSet(MT-ACT)進行語意增強,將來自現有基礎模型的世界先驗知識注入其中。由此產生的數據集將機器人的經驗與世界先驗知識相結合,而無需額外的人力/機器人成本。使用SAM對目標物體進行分割,並在形狀、顏色、紋理變化方面對其進行語義增強。 改寫後的內容:1、語意增強:RoboAgent透過對RoboSet(MT-ACT)進行語意增強,將現有基礎模型的世界先驗知識注入其中。這樣,機器人的經驗和世界先驗知識就能結合起來,而不需要額外的人力/機器人成本。使用SAM對目標物體進行分割,並在形狀、顏色、紋理變化方面進行語義增強
2、高效策略表示:由此產生的資料集是嚴重多模態的,包含豐富多元的技能、任務和情境。我們將動作分塊方法應用於多任務設置,開發了一種新穎的高效策略表示——MT-ACT,能夠在數據量較少的情況下獲取高度多模態的數據集,同時避免過度擬合問題
RoboAgent的樣本效率比現有方法更高
下圖比較了作者提出的MT-ACT策略表示與幾種模仿學習架構。作者僅使用了包括物體姿態變化和部分光照變化的環境變化。與先前的研究相似,作者將此歸於L1泛化。從RoboAgent的結果可以清楚地看到,使用動作分塊來建模子軌跡明顯優於所有基準方法,從而更證明了作者提出的策略表示在樣本效率學習方面的有效性
#RoboAgent 在多個抽象層面上表現優異
在下图中展示了作者对不同泛化层次上测试方法的结果。同时,还通过可视化展示了泛化级别,其中L1代表物体姿态变化,L2代表多样的桌面背景和干扰因素,L3代表新颖的技能-物体组合。接下来,作者展示了每种方法在这些泛化层次上的表现。在严格的评估研究中,MT-ACT在比其他方法中表现显著优异,特别是在更困难的泛化层次(L3)上
RoboAgent 具有高度的可扩展性
作者对RoboAgent在不断增加的语义增强级别下的表现进行了评估,并在一个包含5个技能的活动中进行了评估。从下图可以看出,随着数据的增加(即每帧增强的数量增加),在所有泛化级别上的性能都有显著提升。尤其值得注意的是,在更难的任务(L3泛化)中,性能提升更为明显
RoboAgent 能够展示其技能在各种不同的活动中
以上是以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平的詳細內容。更多資訊請關注PHP中文網其他相關文章!