多任務機器人學習在應對多樣化和複雜情景方面具有重要意義。然而,目前的方法受到效能問題和收集訓練資料集的困難的限制。
這篇論文提出了GeRM(通用機器人模型),研究人員利用離線強化學習來優化數據利用策略,從演示和次優數據中學習,從而超越了人類演示的局限性。
作者:宋文軒,趙晗,丁鵬翔,崔燦,呂尚可,範亞凝,王東林
#單位:西湖大學、浙江大學
論文地址:https://arxiv.org/abs/2403.13358
計畫網址: https://songwxuan.github.io/GeRM/
之後採用基於Transformer的視覺-語言-動作模型來處理多模態輸入並輸出動作。
透過引入專家混合結構,GeRM實現了更快的推理速度和更高的整體模型容量,從而解決了強化學習參數量受限的問題,提高了多任務學習中的模型效能,同時控制了計算成本。
透過一系列實驗證明,GeRM在所有任務中均優於其他方法,同時驗證了其在訓練和推理過程中的效率。
此外,研究人員還提供了QUARD-Auto資料集以支援訓練,該資料集的建立遵循文中提出的資料自動化收集的新範式,該方法可以降低收集機器人數據的成本,推動多任務學習社群的進步。
主要貢獻:
#1. 首次提出了四足強化學習的混合專家模型,其在混合品質的資料上進行訓練,從而具備習得最優策略的潛力。
2. 與現有方法相比,GeRM在只激活自身1/2參數的情況下展現出更高的成功率,激活了湧現能力,同時在訓練過程中展現了更優的數據利用策略。
3.提出了一個全自動機器人資料集收集的範式,並收集了一個大規模開源資料集。
方法
GeRM網路結構如圖1所示,包含示範資料和失敗資料的視覺-語言輸入,分別經過編碼器和tokenizer後輸入到8層混合專家結構的decoder中,並產生動作token,最終轉化為離散的機器人動作資料並透過底層策略部署到機器人上,此外我們以強化學習的方式進行訓練。
圖1 GeRM網路結構圖
#GeRM Decoder是一個包含Transformer Decoder架構模型,其中前饋網路(FFN)從一組8 個不同的專家網路中選擇。
在每一層,對於每一個標記,門控網路選擇兩個專家來處理token,並將它們的輸出加權組合。
不同的專家擅長不同的任務/不同的動作維度,以解決不同場景中的問題,從而學習跨多個任務的通用模型。此架構擴大了網路參數量,同時保持運算成本基本不變。
圖2 Decoder結構圖
我們提出了一個自動的範式來收集機器人多模態數據。透過這種方式,我們建立了一個大規模的機器人資料集QUARD-Auto,其中包含演示和次優資料的組合。它包括5個任務和99個子任務,總共有257k條軌跡。我們將進行開源以促進機器人社群發展。
表1 資料集介紹
圖3 數據量統計
實驗
我們進行了一系列全面且可靠的實驗,涵蓋了所有 99 個子任務,每個子任務進行了 400 條軌蹟的精心測試。
如表1所示,GeRM在所有任務中具有最高的成功率。與 RT-1 和其他GeRM 的變體相比,它有效地從混合質量的數據中學習,優於其他方法,並在多任務中展現出優越的能力。同時,MoE 模組透過在推理時啟動部分參數來平衡計算成本和效能。
表2 多任務對比實驗
#GeRM表現出令人稱讚的訓練效率。與其他方法相比,GeRM 僅需極少的batch就獲得了極低的Loss和較高的成功率,凸顯了GeRM優化資料利用策略的能力。
圖4 成功率/Loss變化曲線
GeRM 在動態自適應路徑規劃上展現出了湧現能力。如影片所示,四足機器人在初始位置視野受限,難以確定移動方向。為了避開障礙物,它隨機選擇向左轉。
隨後,在遇到錯誤的視覺輸入後,機器人執行了大幅度的重新定向,以與原始視野之外的正確目標對齊。然後,它繼續向目的地駛去,最終完成任務。
值得注意的是,這樣的軌跡不屬於我們的訓練資料集分佈之內。這表明 GeRM 在場景背景下的動態自適應路徑規劃方面具有湧現能力,即它能夠根據視覺感知進行決策、規劃未來路徑,並根據需要改變下一步。
圖5 湧現能力
以上是用MoE橫掃99個子任務!浙大等提出全新通用機器人策略GeRM的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載
最受歡迎的的開源編輯器

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

WebStorm Mac版
好用的JavaScript開發工具