搜尋
首頁科技週邊人工智慧強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

內建大模型的機器人,在不看地圖的情況下,學會了按照語言指令到達目的地,這項成果來自於強化學習大牛 Sergey Levine 的新作。

給定一個目的地,在沒有導航軌跡的情況下順利到達,有多難?

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

對於方向感不好的人類來說,這個任務也是很有挑戰性。但在最近的一項研究中,幾位學者只用三個預訓練模型就把機器人「教會了」。

我們都知道,機器人學習的核心挑戰之一是讓機器人能夠按照人類的高階指令執行各種各樣的任務。這就要求機器人能夠理解人類的指令,並配備大量不同的動作,以便在現實世界中執行這些指令。

對於導航中的指令遵循任務來說,先前的工作主要集中在從帶有文字指令註釋的軌跡中學習。這樣可能可以實現對文字指令的理解,但資料註釋的成本問題阻礙了這種技術的廣泛使用。另一方面,最近的工作表明,自監督訓練的目標條件策略可以學習到穩健的導航。這些方法基於大型的、無標記的資料集,透過事後重新標記來訓練基於視覺的控制器。這些方法具有可擴展性、通用性和穩健性,但通常需要使用基於位置或影像的笨重的目標規範機制。

在一篇最新的論文中,UC 伯克利、谷歌等機構的研究者旨在結合這兩種方法的優勢,使機器人導航的自監督系統能夠適用於沒有任何用戶註釋的導航數據,利用預訓練模型的能力來執行自然語言指令。研究者使用這些模型來建構一個「介面」,用來向機器人傳達任務。這個系統借助於預訓練的語言和視覺 - 語言模型的概括能力,使機器人系統能夠接受複雜的高級指令。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

  • 論文連結:https://arxiv.org/pdf/2207.04429.pdf
  • 程式碼連結: https://github.com/blazejosinski/lm_nav

#研究者觀察到,可以利用在視覺和語言資料集的大型語料庫上訓練的現成預訓練模型(這些語料庫廣泛可用,並顯示零樣本泛化能力)來創建介面,以實現具體的指令追蹤。為了實現這一點,研究者結合了視覺和語言的 robot-agnostic 預訓練模型以及預訓練導航模型的優點。具體而言,他們使用視覺導航模型(VNM:ViNG)來將機器人的視覺結果創建為環境的拓撲「心理地圖」。給定自由形式的文字指令,使用預先訓練的大型語言模型(LLM:GPT-3)將指令解碼為一系列文字形式的特徵點。然後,使用視覺語言模型(VLM:CLIP)透過推斷特徵點和節點的聯合似然機率來在拓撲圖中建立這些文字特徵點。之後使用新的搜尋演算法來最大化機率目標函數,並找到機器人的指令路徑,然後由 VNM 執行。 研究的主要貢獻在於大規模模式下的導航方法(LM Nav),一個具體的指令追蹤系統。它結合了三個大型的獨立預訓練模型——一個利用視覺觀察和物理動作(VNM)的自監督機器人控制模型,一個將圖像置於文本中但沒有具體實施環境(VLM)的視覺語言模型,以及一個大型語言模型,該模型可以解析和翻譯文本,但沒有視覺基礎或體現(LLM),以便在複雜的真實環境中實現長視野指令追蹤。研究者首次將預先訓練的視覺和語言模型與目標條件控制器結合的想法實例化,以在目標環境中不進行任何微調的情況下得出可操作的指令路徑。值得注意的是,這三個模型都是在大規模資料集上訓練的,具有自我監督的目標函數,並且在沒有微調的情況下現成使用 - 訓練 LM Nav 不需要對機器人導航資料進行人工註釋。

實驗表明,LM Nav 能夠在 100 公尺複雜的郊區導航過程中,在新環境中成功地遵循自然語言指令,同時使用細粒度命令消除路徑歧義。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

LM-Nav 模型概覽

那麼,研究者是如何利用預先訓練好的圖像和語言模型,為視覺導航模型提供文字介面的?

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

1、 在給定目標環境中的一組觀測值,使用目標條件距離函數,也就是視覺導航模型(VNM)的一部分,推斷它們之間的連通性,並建構環境中連通性的拓樸圖。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

#2、大型語言模型(LLM)用於將自然語言指令解析為一連串的特徵點,這些特徵點可以作為導航的中間子目標。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

3、視覺 - 語言模型(VLM)被用來在特徵點短語上的基礎上建立視覺觀察結果。 視覺 - 語言模型推斷出一個關於特徵點描述和圖像的聯合機率分佈(形成上述圖形中的節點)。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

#4、利用VLM 的機率分佈和VNM 推斷的圖連接性,採用新穎的搜尋演算法,在環境中檢索出一個最優指令路徑,該指令路徑(i)滿足原始指令,(ii)是圖中能實現目標的最短的路徑。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

5、 然後,該指令路徑由目標條件策略執行,該策略是 VNM 的一部份。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

實驗結果

定性評估

#圖4 展示了機器人所走路徑的一些實例(注意,機器人無法獲得頭頂上的影像和特徵點的空間定位,所顯示的只是視覺效果)。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

在圖4(a) 中,LM-Nav 能夠成功地從其先前的穿越中定位出簡單的特徵點,並找到一條通往目標的短路徑。雖然環境中存在多個停車特徵點,但公式 3 中的目標函數使機器人在上下文中選擇正確的停車特徵點,從而使整體行進距離最小化。

圖4(b) 強調了LM-Nav 解析有多個特徵點的指定路線的能力—儘管在無視指令路徑的情況下,直接到達最後的特徵點是最短路線,但機器人仍然能找到了一條以正確順序存取所有特徵點的路徑。

使用指令來消除歧義。由於 LM Nav 的目標是遵循指令,而不僅僅是達到最終目標,不同的指令可能導致不同的遍歷。圖 5 展示了修改指令可以消除目標的多條路徑歧義的範例。對於較短的 prompt(藍色),LM Nav 首選更直接的路徑。在指定更細粒度的路線(洋紅色)時,LM Nav 採用通過不同特徵點集的備用路徑。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

缺少特徵點的情況。雖然LM-Nav 能夠有效地解析指令中的特徵點,在圖上對它們進行定位,並找到通往目標的路徑,但這個流程依賴於這樣的假設:特徵點(i)存在於真實環境中,以及(ii)可以被VLM 辨識。圖 4(c) 顯示了這樣一種情況:可執行的路徑未能訪問其中一個特徵點—一個消防栓—於是採取了一條繞過建築物頂部而不是底部的路徑。這種失敗案例是由於 VLM 無法從機器人的觀察中發現消防栓。

在獨立評估的VLM 在檢索特徵點的功效時,研究者發現,儘管它是此類任務的最佳off-the-shelf 模型,但CLIP 無法檢索少量的「硬」特徵點,包括消防栓和水泥攪拌器。但是在許多實際情況下,機器人仍然能夠成功地找到一條訪問其餘特徵點的路徑。

定量評估

表 1 總結了該系統在 20 條指令中的量化表現。在 85% 的實驗中,LM-Nav 能夠始終遵循指令,沒有發生碰撞或脫離(平均每 6.4 公里的行進有一次幹預)。與無導航模型的 baseline 相比,LM-Nav 在執行高效、無碰撞的目標路徑方面一直表現得更好。在所有不成功的實驗中,失敗可歸因於規劃階段的能力不足——搜尋演算法無法直觀地定位圖中的某些「硬」特徵點—導致指令的不完整執行。對這些失敗模式的調查表明,系統中最關鍵的部分是 VLM 檢測不熟悉的特徵點的能力,例如消防栓,以及在具有挑戰性的照明條件下的場景,例如曝光不足的圖像。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

#

以上是強化學習大牛Sergey Levine新作:三個大模型教會機器人認路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版