隨著大語言模型如GPT-4與機器人技術的結合日益緊密,人工智慧正逐漸走向現實世界。因此,與具身智能相關的研究也引起越來越多的關注。在許多研究計畫中,Google的"RT"系列機器人一直處於前沿地位,這一趨勢在近期開始加速(詳見《大模型正在重構機器人,GoogleDeepmind如何定義未來的具身智慧》)。
去年7月,GoogleDeepMind推出了RT-2,這是全球第一個能夠控制機器人進行視覺-語言-動作(VLA )交互作用的模型。只要用對話的方式下達指令,RT-2就能在大量圖片中辨識出黴黴,並將一罐可樂送到她手中。
如今,這個機器人又進化了。最新版的 RT 機器人名為「RT-H」,它能透過將複雜任務分解成簡單的語言指令,再將這些指令轉化為機器人行動,來提高任務執行的準確性和學習效率。舉例來說,給定一項任務,如「蓋上開心果罐的蓋子」和場景圖像,RT-H 會利用視覺語言模型(VLM)預測語言動作(motion),如「向前移動手臂」和「向右旋轉手臂」,然後根據這些語言動作,預測機器人的行動(action)。
行動層級對於最佳化機器人任務執行的準確性和學習效率至關重要。這種層級結構使得 RT-H 在各種機器人任務中的表現明顯優於 RT-2,為機器人提供了更有效率的執行路徑。
以下是論文的詳細資訊。
論文概覽
- ##論文標題:RT-H: Action Hierarchies Using Language
專案連結:https://rt-hierarchy.github.io/
語言是人類推理的引擎,它使我們能夠將複雜概念分解為更簡單的組成部分,糾正我們的誤解,並在新環境中推廣概念。近年來,機器人也開始利用語言高效、組合式的結構來分解高層次概念、提供語言修正或實現在新環境下的泛化。
這些研究通常遵循一個共同的範式:面對一個用語言描述的高層任務(如「拿起可樂罐」),它們學習將觀察和語言中的任務描述映射到低層次機器人行動的策略,這需要透過大規模多任務資料集實現。語言在這些場景中的優勢在於編碼類似任務之間的共享結構(例如,「拿起可樂罐」與「拿起蘋果」),從而減少了學習從任務到行動映射所需的資料。然而,隨著任務變得更加多樣化,描述每個任務的語言也變得更加多樣(例如,「拿起可樂罐」與「倒一杯水」),這使得僅透過高層次語言學習不同任務之間的共享結構變得更加困難。
為了學習多樣化的任務,研究者的目標是更準確地捕捉這些任務之間的相似性。 ############他們發現語言不僅可以描述高階任務,還能細緻地說明完成任務的方法 —— 這種表示更細膩,更貼近具體動作。例如,「拿起可樂罐」這項任務可以分解為一系列更細節的步驟,即「語言動作(language motion)」:首先「手臂向前伸」,接著「抓緊罐子」,最後「手臂上舉」。研究者的核心洞見是,透過將語言動作作為連結高階任務描述與底層動作之間的中間層,可以利用它們來建構一個透過語言動作形成的行動層級。 ############建立這種行動層級有幾大好處:######
- 它使不同任務之間在語言動作層面上能夠更好地共享數據,使得語言動作的組合和在多任務數據集中的泛化性得到增強。例如,「倒一杯水」與「拿起可樂罐」雖在語義上有所不同,但在執行到撿起物體之前,它們的語言動作完全一致。
- 語言動作不是簡單的固定原語,而是根據當前任務和場景的具體情況透過指令和視覺觀察來學習的。例如,「手臂向前伸」並沒具體說明移動的速度或方向,這取決於具體任務和觀察情況。學習到的語言動作的上下文依賴性和靈活性為我們提供了新的能力:當策略未能百分之百成功時,允許人們對語言動作進行修正(見圖 1 中橙色區域)。進一步地,機器人甚至可以從這些人類的修正中學習。例如,在執行「拿起可樂罐」的任務時,如果機器人提前關閉了夾爪,我們可以指導它「保持手臂前伸的姿勢更久一些」,這種在特定場景下的微調不僅易於人類指導,也更容易機器人學習。
鑑於語言動作存在以上優勢,來自GoogleDeepMind 的研究者設計了一個端到端的框架-RT-H( Robot Transformer with Action Hierarchies,即使用行動層級的機器人Transformer),專注於學習這類行動層級。 RT-H 透過分析觀察結果和高層次任務描述來預測當前的語言動作指令,從而在細節層面上理解如何執行任務。接著,利用這些觀察、任務以及推斷出的語言動作,RT-H 為每一步驟預測相應的行動,語言動作在此過程中提供額外的上下文,幫助更準確地預測具體行動(圖1 紫色區域) 。
此外,他們還開發了一種自動化方法,從機器人的本體感受中提取簡化的語言動作集,建立了包含超過2500 個語言動作的豐富資料庫,無需手動標註。
RT-H 的模型架構借鑒了RT-2,後者是一個在互聯網規模的視覺與語言資料上共同訓練的大型視覺語言模型(VLM),旨在提升策略學習效果。 RT-H 採用單一模型同時處理語言動作和行動查詢,充分利用廣泛的互聯網規模知識,為行動層級的各個層次提供支援。
在實驗中,研究者發現使用語言動作層級在處理多樣化的多任務資料集時能夠帶來顯著的改善,相比RT-2 在一系列任務上的表現提高了15%。他們也發現,修正語言動作能夠在同樣的任務上達到接近完美的成功率,展現了學習到的語言動作的彈性和情境適應性。此外,透過對模型進行語言動作介入的微調,其表現超過了 SOTA 互動模仿學習方法(如 IWR)50%。最終,他們證明了 RT-H 中的語言動作能夠更好地適應場景和物體變化,相比於 RT-2 展現了更優的泛化表現。
RT-H 架構詳解
為了有效地捕捉跨多任務資料集的共享結構(不由高階任務描述表徵), RT-H 旨在學習明確利用行動層級策略。
具體來說,研究團隊將中間語言動作預測層引入策略學習。描述機器人細粒度行為的語言動作可以從多任務資料集中捕捉有用的信息,並且可以產生高效能的策略。當學習到的策略難以執行時,語言動作可以再次發揮作用:它們為與給定場景相關的線上人工修正提供了直覺的介面。經過語言動作訓練的策略可以自然地遵循低程度的人工修正,並在給定修正資料的情況下成功完成任務。此外,該策略甚至可以根據語言修正資料進行訓練,並進一步提高其效能。
如圖2 所示,RT-H 有兩個關鍵階段:先根據任務描述和視覺觀察預測語言動作,然後根據預測的語言動作、具體任務、觀察結果推斷精確的行動。
RT-H 使用 VLM 主幹網路並遵循 RT-2 的訓練過程來進行實例化。與 RT-2 類似,RT-H 透過協同訓練利用了互聯網規模資料中自然語言和影像處理的大量先驗知識。為了將這些先驗知識合併到行動層級的所有層次中,單一模型會同時學習語言動作和行動查詢。
實驗結果
為了全面評估RT-H 的效能,研究團隊設定了四個關鍵的實驗問題:
- Q1(效能):帶有語言的行動層級是否可以提高多任務資料集上的策略效能?
- Q2(情境性):RT-H 學得的語言動作是否與任務和場景情境有關?
- Q3(修正):在語言動作修正上訓練比遠距(teleoperated)修正更好嗎?
- Q4(概括):行動層級是否可以提高分佈外設定的穩健性?
資料集方面,該研究採用一個大型多任務資料集,其中包含 10 萬個具有隨機物件姿態和背景的演示樣本。此資料集結合了以下資料集:
- Kitchen:RT-1 和 RT-2 使用的資料集,由 70K 樣本中的 6 個語意任務類別組成。
- Diverse:由更複雜的任務組成的新資料集,具有超過 24 個語義任務類別,但只有 30K 樣本。
該研究將此組合資料集稱為 Diverse Kitchen (D K) 資料集,並使用自動化程式對其進行語言動作標記。為了評估在完整Diverse Kitchen 資料集上訓練的RT-H 的性能,該研究針對八項具體任務進行了評估,包括:
1)將碗直立放在櫃檯上
2)打開開心果罐
#3)關閉開心果罐
##4 )將碗移離穀物分配器
5)將碗放在穀物分配器下方
##6)將燕麥片放入碗中7)從籃子拿湯匙
#8)從分配器中拉出餐巾
選擇這八個任務是因為它們需要複雜的動作序列和高精度。
實際上,看似不同的任務之間具備一些共享結構,例如這些任務中每一個都需要一些拾取行為來開始任務,並且透過學習跨不同任務的語言動作的共享結構,RT -H 可以完成拾取階段而無需任何修正。
即使當RT-H 不再能夠泛化其語言動作預測時,語言動作修正通常也可以泛化,因此只需進行有些修正就可以成功完成任務。這顯示語言動作在擴大新任務資料收集方面的潛力。
有興趣的讀者可以閱讀論文原文,了解更多研究內容。
以上是Google具身智能新研究:比RT-2優秀的RT-H來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

谷歌三件套指的是:1、google play商店,即下载各种应用程序的平台,类似于移动助手,安卓用户可以在商店下载免费或付费的游戏和软件;2、Google Play服务,用于更新Google本家的应用和Google Play提供的其他第三方应用;3、谷歌服务框架(GMS),是系统软件里面可以删除的一个APK程序,通过谷歌平台上架的应用和游戏都需要框架的支持。

中国不卖google手机的原因:谷歌已经全面退出中国市场了,所以不能在中国销售,在国内是没有合法途径销售。在中国消费市场中,消费者大都倾向于物美价廉以及功能实用的产品,所以竞争实力本就因政治因素大打折扣的谷歌手机主体市场一直不在中国大陆。

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

2015 年,谷歌大脑开放了一个名为「TensorFlow」的研究项目,这款产品迅速流行起来,成为人工智能业界的主流深度学习框架,塑造了现代机器学习的生态系统。从那时起,成千上万的开源贡献者以及众多的开发人员、社区组织者、研究人员和教育工作者等都投入到这一开源软件库上。然而七年后的今天,故事的走向已经完全不同:谷歌的 TensorFlow 失去了开发者的拥护。因为 TensorFlow 用户已经开始转向 Meta 推出的另一款框架 PyTorch。众多开发者都认为 TensorFlow 已经输掉

前几天,谷歌差点遭遇一场公关危机,Bert一作、已跳槽OpenAI的前员工Jacob Devlin曝出,Bard竟是用ChatGPT的数据训练的。随后,谷歌火速否认。而这场争议,也牵出了一场大讨论:为什么越来越多Google顶尖研究员跳槽OpenAI?这场LLM战役它还能打赢吗?知友回复莱斯大学博士、知友「一堆废纸」表示,其实谷歌和OpenAI的差距,是数据的差距。「OpenAI对LLM有强大的执念,这是Google这类公司完全比不上的。当然人的差距只是一个方面,数据的差距以及对待数据的态度才

由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力」的属性被称作「突现」能力,代表我们向通用人工智能迈进了一大步。如今,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员,正在探索大型语言模型中的「突现」能力。解码器提示的 DALL-E神奇的「突现」能力自然语言处理(NLP)已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游N

让一位乒乓球爱好者和机器人对打,按照机器人的发展趋势来看,谁输谁赢还真说不准。机器人拥有灵巧的可操作性、腿部运动灵活、抓握能力出色…… 已被广泛应用于各种挑战任务。但在与人类互动紧密的任务中,机器人的表现又如何呢?就拿乒乓球来说,这需要双方高度配合,并且球的运动非常快速,这对算法提出了重大挑战。在乒乓球比赛中,首要的就是速度和精度,这对学习算法提出了很高的要求。同时,这项运动具有高度结构化(具有固定的、可预测的环境)和多智能体协作(机器人可以与人类或其他机器人一起对打)两大特点,使其成为研究人

ChatGPT在手,有问必答。你可知,与它每次对话的计算成本简直让人泪目。此前,分析师称ChatGPT回复一次,需要2美分。要知道,人工智能聊天机器人所需的算力背后烧的可是GPU。这恰恰让像英伟达这样的芯片公司豪赚了一把。2月23日,英伟达股价飙升,使其市值增加了700多亿美元,总市值超5800亿美元,大约是英特尔的5倍。在英伟达之外,AMD可以称得上是图形处理器行业的第二大厂商,市场份额约为20%。而英特尔持有不到1%的市场份额。ChatGPT在跑,英伟达在赚随着ChatGPT解锁潜在的应用案


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver CS6
視覺化網頁開發工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

WebStorm Mac版
好用的JavaScript開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。