搜尋
首頁科技週邊人工智慧以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

僅僅透過使用7500條軌跡資料進行訓練,這個機器人可以展示出12種不同的操作技能,在38個任務中,不僅限於拾取和推動,還包括關節物件操縱和物件重新定位。而且,這些技能還可以應用於數百個不同的未知情境,包括未知物體、未知任務,甚至完全未知的廚房環境。這樣的機器人真的很酷吧!

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

數十年來,創造一個能夠在不同環境中操縱任意物體的機器人一直是個遙不可及的目標。其中一個原因是缺乏多樣化的機器人資料集,無法訓練這樣的智能體,同時也缺乏能夠產生此類資料集的通用智能體

為了克服這個難題,來自卡內基美隆大學和Meta AI的作者花了兩年時間開發了一個通用的RoboAgent。他們的主要目標是發展一個高效的範例,可以在資料有限的情況下訓練一個能夠具備多種技能的通用智能體,並將這些技能推廣應用於各種未知情境

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

RoboAgent 由以下模組化構成:

  • RoboPen - 一個採用通用硬體建構的分散式機器人基礎設施,能夠長期不間斷運作;
  • RoboHive - 一個統一的框架,用於在模擬和真實世界操作中進行機器人學習;
  • RoboSet - 一個高品質的資料集,代表了各種場景中使用日常物品的多種技能;
  • MT-ACT - 一種高效的語言條件多任務離線模仿學習框架,透過在現有機器人經驗的基礎上創建多樣的語義增強集合,從而擴大了離線資料集,並採用了一種新穎的策略架構和高效的動作表示方法,在有限的資料預算下恢復出性能良好的策略。

RoboSet:多技能、多任務、多模態資料集

建構一個能夠在許多不同情境下推廣的機器人智能體,首先需要一個具有廣泛覆蓋範圍的資料集。鑑於擴大規模的努力通常會有所幫助(例如,RT-1 展示了約130,000 條機器人軌蹟的結果),因此需要在數據集有限的情況下理解學習系統的效率和泛化原則,低數據情境往往會導致過擬合。因此,作者的主要目標是開發一個強大的範例,可以在低數據情境下學習可推廣的通用策略,同時避免過度擬合問題。

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

機器人學習中的技能與資料全景是一個重要的領域。在機器人學習中,技能是指機器人透過學習和訓練所獲得的能力,可以用來執行特定的任務。這些技能的發展離不開大量的數據支援。數據是機器人學習的基礎,透過分析和處理數據,機器人可以從中學習並改進自己的技能。因此,技能和數據是機器人學習中不可或缺的兩個面向。只有透過不斷學習和獲取新的數據,機器人才能不斷提升自己的技能水平,並在各種任務中展現出更高的智能和效率

用於訓練 RoboAgent 的資料集 RoboSet(MT-ACT)僅包含 7,500 條軌跡(比 RT-1 的資料少 18 倍)。此資料集提前收集並保持凍結狀態。該資料集由在多個任務和場景中使用商品機器人硬體(Franka-Emika 機器人配備 Robotiq 夾具)進行人類遙操作收集的高品質軌跡組成。 RoboSet(MT-ACT)在幾個不同的情境下稀疏地涵蓋了 12 種獨特技能。數據透過將日常廚房活動(如泡茶、烘焙)分為不同的子任務來收集,每個子任務代表一個獨特的技能。資料集包括常見的拾取 - 放置技能,還包括接觸豐富的技能,如擦拭、蓋蓋子,以及涉及關節物體的技能。 重寫後的內容: 用於訓練 RoboAgent 的資料集 RoboSet(MT-ACT)僅包含 7,500 條軌跡(比 RT-1 的資料少 18 倍)。此資料集提前收集並保持凍結狀態。該資料集由在多個任務和場景中使用商品機器人硬體(Franka-Emika 機器人配備 Robotiq 夾具)進行人類遙操作收集的高品質軌跡組成。 RoboSet(MT-ACT)在幾個不同的情境下稀疏地涵蓋了 12 種獨特技能。數據透過將日常廚房活動(如泡茶、烘焙)分為不同的子任務來收集,每個子任務代表一個獨特的技能。資料集包括常見的拾取- 放置技能,還包括接觸豐富的技能,如擦拭、蓋蓋子,以及涉及關節物體的技能

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

MT-ACT:多任務動作分塊Transformer

RoboAgent基於兩個關鍵洞察在低資料情境下學習通用策略。它利用基礎模型的世界先驗知識以避免模式崩潰,並採用了一種新穎的高效策略表示,能夠攝取高度多模態的資料

需要進行改寫的內容是:1、語意增強:RoboAgent透過對RoboSet(MT-ACT)進行語意增強,將來自現有基礎模型的世界先驗知識注入其中。由此產生的數據集將機器人的經驗與世界先驗知識相結合,而無需額外的人力/機器人成本。使用SAM對目標物體進行分割,並在形狀、顏色、紋理變化方面對其進行語義增強。 改寫後的內容:1、語意增強:RoboAgent透過對RoboSet(MT-ACT)進行語意增強,將現有基礎模型的世界先驗知識注入其中。這樣,機器人的經驗和世界先驗知識就能結合起來,而不需要額外的人力/機器人成本。使用SAM對目標物體進行分割,並在形狀、顏色、紋理變化方面進行語義增強

2、高效策略表示:由此產生的資料集是嚴重多模態的,包含豐富多元的技能、任務和情境。我們將動作分塊方法應用於多任務設置,開發了一種新穎的高效策略表示——MT-ACT,能夠在數據量較少的情況下獲取高度多模態的數據集,同時避免過度擬合問題

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

實驗結果

RoboAgent的樣本效率比現有方法更高

下圖比較了作者提出的MT-ACT策略表示與幾種模仿學習架構。作者僅使用了包括物體姿態變化和部分光照變化的環境變化。與先前的研究相似,作者將此歸於L1泛化。從RoboAgent的結果可以清楚地看到,使用動作分塊來建模子軌跡明顯優於所有基準方法,從而更證明了作者提出的策略表示在樣本效率學習方面的有效性

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

#RoboAgent 在多個抽象層面上表現優異

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

在下图中展示了作者对不同泛化层次上测试方法的结果。同时,还通过可视化展示了泛化级别,其中L1代表物体姿态变化,L2代表多样的桌面背景和干扰因素,L3代表新颖的技能-物体组合。接下来,作者展示了每种方法在这些泛化层次上的表现。在严格的评估研究中,MT-ACT在比其他方法中表现显著优异,特别是在更困难的泛化层次(L3)上

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

RoboAgent 具有高度的可扩展性

作者对RoboAgent在不断增加的语义增强级别下的表现进行了评估,并在一个包含5个技能的活动中进行了评估。从下图可以看出,随着数据的增加(即每帧增强的数量增加),在所有泛化级别上的性能都有显著提升。尤其值得注意的是,在更难的任务(L3泛化)中,性能提升更为明显

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

RoboAgent 能够展示其技能在各种不同的活动中

以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平


以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平


以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平

以上是以7500條軌跡資料訓練,CMU、Meta讓機器人達到全能的廳堂與廚房水平的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。