深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

王林

Oct 05, 2023 pm 04:21 PM

產業rt-xopen x-embodiment

機器人技術為什麼遠遠落後於自然語言處理（NLP）、視覺和其他人工智慧領域？除了其他困難外，數據短缺是主要原因。為了解決這個問題，GoogleDeepMind 聯合其他機構推出了開放式X-Embodiment 資料集，並成功訓練出了更強大的RT-X 模型

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

在大模型不斷取得突破的2023，把大模型當作大腦來輔助運作的具身智慧機器人研究也正在被快速推進。

2 個多月前，GoogleDeepMind 推出了第一個控制機器人的視覺- 語言- 動作（VLA）模型—RT-2。這個模型讓機器人不僅能解讀人類的複雜指令，還能看懂眼前的物體（即使物體以前從未見過），並且依照指令採取動作。例如，你讓機器人拿起桌上「已滅絕的動物」。它會抓起眼前的恐龍玩偶。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

當時，一位Google高層稱，RT-2 是機器人製造和程式設計方式的重大飛躍。「由於這一變化，我們不得不重新考慮我們的整個研究規劃了。」

#更令人吃驚的是，時間僅僅過去了兩個多月， DeepMind 的這個機器人模型又進步了，而且一下就提高了兩倍。

這是怎麼實現的呢？

我們知道，機器人通常在做某一件事情上非常專業，但通用能力很差。一般情況下，你必須針對每項任務、每個機器人和環境訓練一個模型。改變一個變數往往需要從頭開始。但是，如果我們能將各種機器人學的知識結合起來，創造出訓練通用機器人的方法呢？

這就是 DeepMind 在過去一段時間所做的事情。他們匯集了來自22 種不同機器人類型的數據，以創建Open X-Embodiment 數據集，然後在之前的模型（RT-1 和RT-2）的基礎上，訓練出了能力更強的RT-X（分別為RT-1-X 和RT-2-X）。

他們在五個不同的研究實驗室測試了RT-1-X 模型，結果顯示，與針對每個機器人獨立開發的方法相比，新方法在五種不同的常用機器人中平均成功率提高了50%。他們還表明，在上述數據集上訓練的 RT-2-X 在現實世界機器人技能上的表現提高了 2 倍，而且，透過學習新數據，RT-2-X 掌握了許多新技能。這項工作表明，在來自多個機器人類型資料上訓練的單一模型比在來自單一機器人類型資料上訓練的模型在多個機器人上的表現要好得多。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

值得一提的是，這項研究並非由 DeepMind 獨立完成，而是他們與 33 個學術實驗室通力合作的結果。他們致力於以開放和負責任的方式開發這項技術。

目前，Open X-Embodiment 資料集和 RT-1-X 模型檢查點已經對廣泛的研究社群開放。

英偉達資深人工智慧科學家Jim Fan表示今天可能是機器人的ImageNet時刻。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

Google研究員Karol Hausman也表達了同樣的感嘆：機器人的ImageNet時刻終於到來了。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

Open X-Embodiment 資料集，機器人的ImageNet 時刻

資料集以及基於資料集訓練的模型在推進AI 進步方面發揮了關鍵作用。正如 ImageNet 推動了電腦視覺的研究，Open X-Embodiment 也推動了機器人技術的發展。

一直以來，建立多樣化資料集是訓練通用模型的關鍵，這些訓練好的模型可以控制許多不同類型的機器人，遵循不同的指令，對複雜任務進行基本推理，並有效地進行泛化。然而，對於任何單一實驗室來說，收集這樣的資料集都過於耗費資源。

為此，DeepMind 與 33 個機構的學術研究實驗室展開合作，從而建構了 Open X-Embodiment 資料集。他們從 22 個機器人實例中收集數據，這些數據涵蓋超過 100 萬個片段，展示了機器人 500 多項技能和在 150,000 項任務上的表現。該數據集是同類中最全面的機器人數據集。

^{作用中使用 00 個任務的樣本，包括 500 多種技能和 50000 個任務。}

^與

RT-1-X：成功率提升50%

#RT-X 基於兩個robotics transformer（RT）模型建構而成。

具體而言，他們使用RT-1 訓練RT-1-X，其中RT-1 是建立在Transformer 架構上的35M 參數網絡，專為機器人控制而設計，如圖3 所示。

此外，他們還在RT-2 上訓練RT-2-X，其中RT-2 是一系列大型視覺語言動作模型(VLA)，在網路規模的視覺和語言資料以及機器人控制資料上訓練而成。

為了評估 RT-1-X，DeepMind 將其與在特定任務上（例如開門）開發的模型進行了比較。結果顯示，使用 Open X-Embodiment 資料集訓練的 RT-1-X 平均效能優於原始模型 50%。

時中增加平均成功率上為 1-1-X-X-1-X-X-X-X-X-X-X-X-X-X-X-X-X-X-X-X-X- 效果等級。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

^{來自不同合作機構的關於RT-1-X 的效果展示}

RT-2 -X：無障礙解鎖新技能

為了研究RT-X 的知識遷移能力，DeepMind 又進行了其他實驗。這些實驗涉及 RT-2 資料集中不存在的物件和技能，但這些物件和技能存在於另一個機器人的資料集中。結果表明，在掌握新技能方面，RT-2-X 的成功率是其先前最佳的 RT-2 的三倍。這也說明了，與其他平台的資料進行聯合訓練可以為 RT-2-X 賦予原始資料集中不存在的額外技能，使其能夠執行新穎的任務。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

#一系列結果表明，RT-2-X 實現了RT-2 以前無法實現的技能，包括對空間更好的理解。例如，如果我們要求機器人「將蘋果移到布料附近」、又或要求機器人「將蘋果移到布料上」，為了實現目標要求，機器人會採取完全不同的軌跡。只需將介詞從“near”更改為“on”，就可以調整機器人採取的動作。

RT-2-X 表明，將其他機器人的資料結合到RT-2-X 訓練中可以改善機器人的任務執行範圍，但前提是使用足夠高容量的架構。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

^{RT-2-X (55B): 目前在學術實驗室中執行未知任務的最大模型之一}

研究啟發：機器人需要相互學習，研究人員也一樣

##機器人研究正處於令人興奮的早期階段。 DeepMind 的這項新研究表明，透過利用更多樣化的數據和更好的模型進行擴展學習，有可能開發出更有用的輔助機器人。與世界各地的實驗室合作並分享資源，對於以開放和負責任的方式推動機器人研究至關重要。 DeepMind 希望透過開放資料來源和提供安全但有限的模型來減少障礙，並加快研究。機器人技術的未來有賴於機器人之間的相互學習，最重要的是，讓研究人員能夠互相學習。

這項工作證明，模型可以在不同環境下通用，無論是在GoogleDeepMind 的機器人上，還是在世界各地不同大學的機器人上，其性能都得到了顯著提高。未來的研究可以探索如何將這些進步與 RoboCat 的自我完善特性結合，使模型能夠根據自身經驗不斷改進。未來的另一個方向是進一步探索不同資料集的混合會如何影響跨具身智能體泛化，以及這種泛化是如何是實現的。

如果你想了解有關RT-X 的更多信息，可以參考DeepMind 發布的這篇論文：

論文連結：https://robotics-transformer-x.github.io/paper.pdf
專案連結：https://robotics-transformer -x.github.io/

#參考連結：https://www.deepmind.com/blog/scaling -up-learning-across-many-different-robot-types

####

以上是深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

[帶AI的吉卜力風格圖像]介紹如何使用Chatgpt和版權創建免費圖像May 13, 2025 am 01:57 AM

OpenAI發布的最新模型GPT-4o，不僅能生成文本，還具備圖像生成功能，引發廣泛關注。其中最受矚目的功能便是“吉卜力風格插畫”的生成。只需將照片上傳至ChatGPT，並給出簡單的指令，即可生成宛如吉卜力工作室作品般夢幻的圖像。本文將詳細解讀實際操作流程、效果感受，以及需要注意的錯誤和版權問題。 OpenAI發布的最新模型“o3”詳情請點擊此處⬇️ OpenAI o3(ChatGPT o3)詳解：特性、定價體系及o4-mini介紹吉卜力風格文章的英文版請點擊此處⬇️ 利用ChatGPT創作吉

解釋在地方政府中使用和實施CANTGPT的示例！還介紹了禁止的地方政府May 13, 2025 am 01:53 AM

作為一種新的交流方法，在地方政府中使用和引入Chatgpt引起了人們的關注。儘管這種趨勢在廣泛的領域正在發展，但一些地方政府拒絕使用Chatgpt。在本文中，我們將介紹地方政府中ChatGPT實施的示例。我們將通過各種改革實例，包括支持文件創建和與公民對話，從而探索如何通過各種改革實例來實現地方政府服務的質量和效率提高。不僅旨在減少員工工作量並改善公民的便利性的地方政府官員，而且都對高級用例感興趣。

chatgpt中的福卡式風格提示是什麼？示例句子的詳盡解釋！May 13, 2025 am 01:52 AM

您是否聽說過一個名為“福卡斯提示系統”的框架？諸如ChatGpt之類的語言模型非常出色，但是適當的提示對於發揮其潛力至關重要。福卡（Fukatsu）提示是旨在提高輸出準確性的最受歡迎的提示技術之一。本文解釋了福卡式風格提示的原理和特徵，包括特定的用法方法和示例。此外，我們還引入了其他眾所周知的及時模板和有用的技術來及時設計，因此，根據這些設計，我們將介紹C。

什麼是chatgpt搜索？解釋主要功能，用法和費用結構！May 13, 2025 am 01:51 AM

CHATGPT搜索：使用創新的AI搜索引擎有效獲取最新信息！在本文中，我們將徹底解釋OpenAI提供的新的ChatGpt功能“ ChatGpt搜索”。讓我們仔細研究一下功能，用法以及該工具如何根據實時網絡信息和直觀的易用性來幫助您提高信息收集效率。 chatgpt搜索提供了一種對話互動搜索體驗，該體驗在舒適，隱藏的環境中回答用戶問題，以隱藏廣告

易於理解的解釋如何在Chatgpt和提示中創建構圖！May 13, 2025 am 01:50 AM

信息爆炸的現代社會，創作出令人信服的文章並非易事。如何在有限的時間和精力內，發揮創造力，撰寫出吸引讀者的文章，需要高超的技巧和豐富的經驗。這時，作為革命性的寫作輔助工具，ChatGPT 備受矚目。 ChatGPT 利用龐大的數據訓練出的語言生成模型，能夠生成自然流暢、精煉的文章。本文將介紹如何有效利用 ChatGPT，高效創作高質量文章的技巧。我們將逐步講解使用 ChatGPT 的寫作流程，並結合具體案例，詳細闡述其優缺點、適用場景以及安全使用注意事項。 ChatGPT 將成為作家克服各種障礙，

如何使用chatgpt創建圖！還解釋了插圖的加載和插件May 13, 2025 am 01:49 AM

使用AI創建圖表的有效指南視覺材料對於有效傳達信息至關重要，但是創建它需要大量時間和精力。但是，由於AI技術（例如Chatgpt和dall-e 3）的興起，圖表創建過程正在發生巨大變化。本文使用這些尖端工具提供了有關有效而有吸引力的圖創建方法的詳細說明。它涵蓋了從想法到完成的所有內容，並包含大量信息，可用於創建圖表，從可以使用的特定步驟，提示，插件和API以及如何使用圖像一代AI“ dall-e 3.”）

易於理解的解釋Chatgpt加上定價結構和付款方式！May 13, 2025 am 01:48 AM

解锁ChatGPT Plus：费用、支付方式及升级指南全球瞩目的顶尖生成式AI，ChatGPT已广泛应用于日常生活和商业领域。虽然ChatGPT基本免费，但付费版ChatGPT Plus提供多种增值服务，例如插件、图像识别等，显著提升工作效率。本文将详细解读ChatGPT Plus的收费标准、支付方式及升级流程。 OpenAI最新图像生成技术“GPT-4o图像生成”详情请点击： GPT-4o图像生成详解：使用方法、提示词示例、商业应用及与其他AI的差异目录 ChatGPT Plus费用 Ch

解釋如何使用chatgpt創建設計！我們還介紹了使用和提示示例May 13, 2025 am 01:47 AM

如何使用Chatgpt簡化您的設計工作並提高創造力本文將詳細說明如何使用ChatGpt創建設計。我們將介紹在各個設計領域中使用Chatgpt的示例，例如思想，文本生成和網頁設計。我們還將介紹可以幫助您提高各種創意作品的效率和質量（例如圖形設計，插圖和徽標設計）的效率和質量。請看一下AI如何大大擴展您的設計可能性。目錄 chatgpt：設計創建的強大工具

See all articles