搜尋
首頁科技週邊人工智慧谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%

機器學習(ML) 研究的多個子領域(如電腦視覺和自然語言處理)的許多最新進展,都是建立在利用大型、多樣化的資料集和能夠有效吸收所有資料的表達模型。

但這種高效能模型方法在機器人技術領域的應用卻相對較少。

原因很簡單,首先缺乏大規模且多樣化的機器人數據,限制了模型吸收廣泛機器人經驗的能力。

其次,缺乏可從此類資料集中學習並有效泛化的表達力強、可擴展且速度足夠快的即時推理模型。

而這次,Google推出的Robotics Transformer 1 (簡稱RT-1)是一種多任務模型,它可以標記機器人輸入和輸出動作(例如,相機影像、任務指令和馬達命令)以在運行時實現高效推理,並使即時控製成為可能。

谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%

RT-1吸收了大量數據,讓機器人勝任不同環境下的多種任務,從而提升機器性能和泛化能力

簡單來說,就是讓一個機器人同時做幾份活。

該模型是在一個包含130k個episode的大型真實世界機器人資料集上訓練的,該資料集涵蓋700多項任務,使用Everyday Robots (EDR) 的13台機器人在17個月內收集而成。

結果表明,與現有技術相比,RT-1可以顯著改善對新任務、環境和物件的零樣本泛化。

Github連結小編也貼心地放在下面啦,有興趣的小夥伴趕緊去看看。

谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%

#https://github.com/google-research/robotics_transformer

#RT-1模型具體原理

RT-1建立在Transformer架構上,它能從機器人的相機中獲取影像歷史記錄並以自然語言表達的任務描述作為輸入,同時直接輸出標記化的動作。

RT-1的架構類似於僅解碼器序列模型(decoder-only sequence model)的架構,該模型針對具有因果掩蔽的標準分類交叉熵目標進行訓練。

谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%

該模型將文字指令和一組圖像作為輸入,透過預先訓練的FiLM EfficientNet 模型將它們編碼為標記,並透過TokenLearner 進行壓縮,然後經Transformer輸出動作標記。

其主要功能包括:圖像詞元化(Image Tokenization)、動作詞元化(Action Tokenization)和詞元壓縮(Token Compression )。

  • 映像tokenization:我們透過在 ImageNet 上預先訓練的 EfficientNet-B3 模型傳遞影像,然後將產生的 9×9×512 空間特徵圖展平為81個標記。圖像分詞器以自然語言任務指令為條件,並使用初始化為身份的 FiLM 層在早期提取與任務相關的圖像特徵。
  • 動作tokenization:機器人的動作維度是手臂運動的7 個變數(x、y、z、滾動、俯仰、偏航、夾具開啟) ,3 個基本運動變數(x、y、偏航),以及一個額外的離散變數在三種模式之間切換。
  • Token壓縮:此模型自適應地選擇映像Token的軟組合,這些組合可以根據它們對使用元素注意模組TokenLearner 進行學習的影響進行壓縮,從而使推理速度提高2.4倍以上。

谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%

我們使用人類透過遠端操作提供的演示,並用機器人執行指令的文字描述對每一集進行註釋。

而這個機器人執行任務靠的是,「7個自由度的手臂、一個兩指夾持器和一個移動底座」。

資料集中表示的一組高級技能包括拾取和放置物品、打開和關閉抽屜、將物品放入和取出抽屜、將細長的物品直立放置、將物體打翻等操作。

整合異質資料來源

為進一步推動RT-1,我們使用從另一個機器人收集的資料進行訓練,以測試(1) 模型在出現新資料來源時是否保持其在原始任務上的效能,以及(2) 模型是否在泛化方面得到提升具有新的和不同的資料。

我們轉換收集的資料以符合我們使用EDR收集的原始資料集的動作規格和邊界,並用任務指令標記每個資料集。

然後在每個訓練批次中將Kuka資料與EDR資料以1:2的比例混合,以控制原始EDR技能的回歸。

谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%

圖為從多個機器人收集資料時的訓練方法

結果表明,RT-1能夠透過觀察其他機器人的經驗來獲得新技能。

當RT-1在Kuka的垃圾箱揀選資料和機器人教室的現有EDR資料上進行訓練時,僅使用EDR 資料進行訓練時的22% 「準確率躍升了近2倍」,達到39%。

谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%

當單獨使用來自Kuka的揀選資料訓練RT-1,並使用來自EDR機器人的揀選資料對其進行評估時,準確率為0%。

實驗結果

為更好地理解RT-1的泛化能力,我們針對三個基準研究了它的表現:Gato、BC-Z和BC-Z XL(即與RT-1 具有相同數量參數的BC-Z)。

並將其分為四個類別:

谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%

圖為測試環境下RT-1與對照組的表現

#
  • 可見任務表現(Seen tasks performance):訓練期間觀測的任務表現;
  • 不可見任務表現(Unseen tasks performance):在看不見的任務上的表現,其中技能和物件在訓練集中是分開的;
  • #穩健性(Robustness):在幹擾因素介入期間的表現與背景變化(新廚房、照明、背景場景)的表現表現
  • 遠景場景(long-horizo​​n scenarios):真實廚房中SayCan類自然語言指令的執行

RT-1 的高效能和泛化能力可以透過SayCan實現遠距離、移動操作任務。

SayCan的工作原理是將語言模型置於機器人可供性中,並利用少量提示將以自然語言表達的長期任務分解為一系列低階技能。

我們在兩個真實廚房中使用RT-1和其他兩個基準(SayCan with Gato 和 SayCan with BC-Z)評估SayCan。

下面,「Kitchen2」構成了比「Kitchen1」更具挑戰性的泛化場景。用於收集大部分訓練資料的模擬廚房是在 Kitchen1 之後建模的。

谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%

可以看到,SayCan with RT-1在 Kitchen1中的執行成功率為 67%,優於其他基準。

由於新的看不見的廚房帶來的泛化困難,SayCan with Gato 和 SayCan with BCZ 的性能下降,但RT-1的成功率並沒有因此下降。

以上是谷歌RT-1模型讓一個機器人做幾份活,700條指令成功率達97%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。