搜尋
首頁科技週邊人工智慧GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

在開發機器人學習方法時,如果能整合大型多樣化資料集,再組合使用強大的富有表現力的模型(如Transformer),那麼就有望開發出具備泛化能力且廣泛適用的策略,從而讓機器人能學會很好地處理各種不同的任務。比方說,這些策略讓機器人遵從自然語言指令,執行多階段行為,適應各種不同環境和目標,甚至適用於不同的機器人型態。

但是,近期在機器人學習領域出現的強大模型都是使用監督學習方法訓練得到的。因此,所得策略的性能表現受限於人類演示者提供高品質演示數據的程度。這種限制的原因有二。

  • 第一,我們希望機器人系統能比人類遠端操作者更熟練,並利用硬體的全部潛力來快速、流暢且可靠地完成任務。
  • 第二,我們希望機器人系統能更擅長自動累積經驗,而不是完全依賴高品質的簡報。

從原理上看,強化學習能同時提供這兩種能力。

近期出現了一些具有潛力的進展,顯示大規模機器人強化學習在多種應用場景中能夠取得成功,例如機器人的抓取和堆疊能力、學習具有人類指定獎勵的不同任務、學習多任務策略、學習基於目標的策略以及機器人導航。然而,研究表明,如果使用強化學習來訓練Transformer等強大的模型,則更難有效地進行大規模實例化

Google DeepMind 最近提出了Q-Transformer,旨在將基於多樣化真實世界資料集的大規模機器人學習與基於強大Transformer 的現代策略架構結合起來

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

  • 論文:https://q-transformer.github.io/assets/q-transformer.pdf
  • 專案:https: //q-transformer.github.io/

#儘管從原理來看,直接使用Transformer來取代現有的架構(如ResNets或更小的捲積神經網路)在概念上很簡單,但設計一個能有效利用這種架構的方案卻非常困難。只有在能夠使用大規模多樣化的資料集時,大型模型才能發揮其效力-小規模、範圍狹窄的模型並不需要這種能力,也無法從中獲益

儘管之前有研究透過模擬資料來創建這樣的資料集,但最具代表性的資料還是來自真實世界。

因此,DeepMind 表示,該研究的重點是透過離線強化學習利用Transformer 並整合先前收集的大型資料集

##離線強化學習方法是利用先前已有的資料進行訓練,其目標是根據給定的資料集推導出最有效的可能策略。當然,也可以利用額外自動收集的資料來增強這個資料集,但訓練過程與資料收集過程是分開的,這為大規​​模機器人應用提供了一個額外的工作流程

在使用Transformer 模型來實現強化學習方面,另一個主要問題是設計一個可以有效訓練這種模型的強化學習系統。有效的離線強化學習方法通常是透過時間差更新來進行 Q 函數估計。由於 Transformer 建模的是離散的 token 序列,所以可以將 Q 函數估計問題轉換成離散 token 序列建模問題,並為序列中的每個 token 設計一個合適的損失函數。

DeepMind 所採用的方法是依維度離散化方案,這是為了避免動作基數呈指數爆炸。具體而言,動作空間的每個維度都被視為強化學習中的獨立時間步驟。離散化中的不同 bin 對應於不同的動作。這個以維度離散化的方案使得我們可以使用具有一個保守的正則化器的簡單離散動作Q 學習方法來處理分佈轉變情況

DeepMind 提出了一種專門的正則化器,其旨在最小化未被使用動作的值。研究表明,這種方法可以有效地學習範圍狹窄的類似演示的數據,並且也可以學習具有探索噪聲的範圍更廣的數據

最後,他們也採用了一種混合更新機制,將蒙特卡羅和 n 步驟返回與時間差備份(temporal difference backups)組合到了一起。結果顯示這種做法能提升基於 Transformer 的離線強化學習方法在大規模機器人學習問題上的表現。

這項研究的主要貢獻是Q-Transformer,它是一種基於Transformer架構的機器人離線強化學習的方法。 Q-Transformer對Q值進行了按維度的token化,並且已經成功應用於大規模多樣化的機器人資料集,包括真實世界資料。圖1展示了Q-Transformer的元件

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

#DeepMind 進行了實驗評估,包括模擬實驗和大規模真實世界實驗,旨在嚴格比較和實際驗證。其中,我們採用了大規模的基於文字的多任務策略進行學習,並驗證了Q-Transformer 的有效性

在真實世界實驗中,他們使用的資料集包含3.8 萬個成功演示和2 萬個失敗的自動收集的場景,這些數據是透過13 台機器人在700 多個任務上收集的。 Q-Transformer 的表現優於先前提出的大規模機器人強化學習的架構,以及先前提出的 Decision Transformer 等基於 Transformer 的模型。

方法概覽

為了使用Transformer進行Q學習,DeepMind採取的方法是將動作空間離散化與自迴歸處理

要學習一個使用TD學習的Q函數,經典方法是基於貝爾曼更新規則

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

研究者對貝爾曼更新進行了修改,使其能為每個動作維度執行,做法是將問題的原始MDP 轉換成每個動作維度都被視為Q 學習的一個步驟的MDP。

具體而言,對於給定的動作維度d_A,新的貝爾曼更新規則可以表述為:

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

這意味著對於每個中間動作維度,要在給定相同狀態的情況下最大化下一個動作維度,而對於最後一個動作維度,使用下一狀態的第一個動作維度。這種分解能確保貝爾曼更新中的最大化仍然易於處理,同時也能確保原始 MDP 問題仍可解決。

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

為了兼顧離線學習過程中的分佈變化情況,DeepMind 也引進了一種簡單的正規化技術,其是將未曾見過的動作的值降到最低。

為了加快學習速度,他們也採用了蒙特卡羅返回方法。這種方法不僅使用了對於給定事件片段(episode)的返回即用(return-to-go),還使用了可跳過按維度最大化的n 步返回(n-step returns)

實驗結果

在實驗中,DeepMind對Q-Transformer進行了評估,涵蓋了一系列真實世界任務。同時,他們也將每個任務的資料限制在只包含100個人類別演示的範圍內

在演示中,除了演示之外,他們還添加了自動收集的失敗事件片段,以建立一個資料集。這個資料集包含了來自示範的3.8萬個正例和2萬個自動收集的負例

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

相比于 RT-1、IQL 和 Decision Transformer (DT) 等基准方法,Q-Transformer 可以有效地利用自动事件片段来显著提升其使用技能的能力,这些技能包括从抽屉里取放物品、将物体移动到目标附近、开关抽屉。

研究者还在一个高难度的模拟取物任务上对新提出的方法进行了测试 —— 在该任务中,仅有约 8% 的数据是正例,其余的都是充满噪声的负例。

在这个任务中,Q-学习方法如QT-Opt、IQL、AW-Opt和Q-Transformer通常表现更好,因为它们能够利用动态规划来学习策略,并利用负例进行优化

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

基于这个取物任务,研究者进行了消融实验,结果发现保守的正则化器和 MC 返回都对保持性能很重要。如果切换成 Softmax 正则化器,性能表现显著更差,因为这会将策略过于限制在数据分布中。这说明 DeepMind 这里选择的正则化器能更好地应对这个任务。

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

他们对于n步返回的消融实验发现,尽管这可能会引入偏差,但这种方法可以在显著更少的梯度步骤内实现同等的高性能,有效地处理许多问题

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

研究人员还尝试在更大规模的数据集上运行Q-Transformer。他们将正例数量扩大到11.5万,负例数量增至18.5万,从而得到一个包含30万个事件片段的数据集。使用这个大型数据集,Q-Transformer仍然能够学习,并且甚至比RT-1 BC基准表现更好

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

最后,他们将Q-Transformer训练的Q函数作为可供性模型(affordance model)与语言规划器组合在一起,类似于SayCan

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

Q-Transformer 可供性估计的效果由于之前的使用 QT-Opt 训练的 Q 函数;如果再将未被采样的任务重新标注为训练期间当前任务的负例,效果还能更好。由于 Q-Transformer 不需要 QT-Opt 训练使用的模拟到真实(sim-to-real)训练,因此如果缺乏合适的模拟,那么使用 Q-Transformer 会更容易。

为了测试完整的「规划 执行」系统,他们实验了使用 Q-Transformer 同时进行可供性估计和实际策略执行,结果表明它优于之前的 QT-Opt 和 RT-1 组合。

GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦

从给定图像的任务可供性值示例中可以观察到,Q-Transformer 在下游的「规划 执行」框架中能够提供高质量的可供性值

请阅读原文以获取更多详细内容

以上是GoogleDeepMind:將大模型與強化學習結合,打造機器人感知世界的智慧大腦的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具