搜尋
首頁科技週邊人工智慧強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

內建大模型的機器人,在不看地圖的情況下,學會了按照語言指令到達目的地,這項成果來自於強化學習大牛 Sergey Levine 的新作。

給定一個目的地,在沒有導航軌跡的情況下順利到達,有多難?

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

對於方向感不好的人類來說,這個任務也是很有挑戰性。但在最近的一項研究中,幾位學者只用三個預訓練模型就把機器人「教會了」。

我們都知道,機器人學習的核心挑戰之一是讓機器人能夠按照人類的高階指令執行各種各樣的任務。這就要求機器人能夠理解人類的指令,並配備大量不同的動作,以便在現實世界中執行這些指令。

對於導航中的指令遵循任務來說,先前的工作主要集中在從帶有文字指令註釋的軌跡中學習。這樣可能可以實現對文字指令的理解,但資料註釋的成本問題阻礙了這種技術的廣泛使用。另一方面,最近的工作表明,自監督訓練的目標條件策略可以學習到穩健的導航。這些方法基於大型的、無標記的資料集,透過事後重新標記來訓練基於視覺的控制器。這些方法具有可擴展性、通用性和穩健性,但通常需要使用基於位置或影像的笨重的目標規範機制。

在一篇最新的論文中,UC 伯克利、谷歌等機構的研究者旨在結合這兩種方法的優勢,使機器人導航的自監督系統能夠適用於沒有任何用戶註釋的導航數據,利用預訓練模型的能力來執行自然語言指令。研究者使用這些模型來建構一個「介面」,用來向機器人傳達任務。這個系統借助於預訓練的語言和視覺 - 語言模型的概括能力,使機器人系統能夠接受複雜的高級指令。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

  • 論文連結:https://arxiv.org/pdf/2207.04429.pdf
  • 程式碼連結: https://github.com/blazejosinski/lm_nav

#研究者觀察到,可以利用在視覺和語言資料集的大型語料庫上訓練的現成預訓練模型(這些語料庫廣泛可用,並顯示零樣本泛化能力)來創建介面,以實現具體的指令追蹤。為了實現這一點,研究者結合了視覺和語言的 robot-agnostic 預訓練模型以及預訓練導航模型的優點。具體而言,他們使用視覺導航模型(VNM:ViNG)來將機器人的視覺結果創建為環境的拓撲「心理地圖」。給定自由形式的文字指令,使用預先訓練的大型語言模型(LLM:GPT-3)將指令解碼為一系列文字形式的特徵點。然後,使用視覺語言模型(VLM:CLIP)透過推斷特徵點和節點的聯合似然機率來在拓撲圖中建立這些文字特徵點。之後使用新的搜尋演算法來最大化機率目標函數,並找到機器人的指令路徑,然後由 VNM 執行。 研究的主要貢獻在於大規模模式下的導航方法(LM Nav),一個具體的指令追蹤系統。它結合了三個大型的獨立預訓練模型——一個利用視覺觀察和物理動作(VNM)的自監督機器人控制模型,一個將圖像置於文本中但沒有具體實施環境(VLM)的視覺語言模型,以及一個大型語言模型,該模型可以解析和翻譯文本,但沒有視覺基礎或體現(LLM),以便在複雜的真實環境中實現長視野指令追蹤。研究者首次將預先訓練的視覺和語言模型與目標條件控制器結合的想法實例化,以在目標環境中不進行任何微調的情況下得出可操作的指令路徑。值得注意的是,這三個模型都是在大規模資料集上訓練的,具有自我監督的目標函數,並且在沒有微調的情況下現成使用 - 訓練 LM Nav 不需要對機器人導航資料進行人工註釋。

實驗表明,LM Nav 能夠在 100 公尺複雜的郊區導航過程中,在新環境中成功地遵循自然語言指令,同時使用細粒度命令消除路徑歧義。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

LM-Nav 模型概覽

那麼,研究者是如何利用預先訓練好的圖像和語言模型,為視覺導航模型提供文字介面的?

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

1、 在給定目標環境中的一組觀測值,使用目標條件距離函數,也就是視覺導航模型(VNM)的一部分,推斷它們之間的連通性,並建構環境中連通性的拓樸圖。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

#2、大型語言模型(LLM)用於將自然語言指令解析為一連串的特徵點,這些特徵點可以作為導航的中間子目標。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

3、視覺 - 語言模型(VLM)被用來在特徵點短語上的基礎上建立視覺觀察結果。 視覺 - 語言模型推斷出一個關於特徵點描述和圖像的聯合機率分佈(形成上述圖形中的節點)。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

#4、利用VLM 的機率分佈和VNM 推斷的圖連接性,採用新穎的搜尋演算法,在環境中檢索出一個最優指令路徑,該指令路徑(i)滿足原始指令,(ii)是圖中能實現目標的最短的路徑。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

5、 然後,該指令路徑由目標條件策略執行,該策略是 VNM 的一部份。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

實驗結果

定性評估

#圖4 展示了機器人所走路徑的一些實例(注意,機器人無法獲得頭頂上的影像和特徵點的空間定位,所顯示的只是視覺效果)。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

在圖4(a) 中,LM-Nav 能夠成功地從其先前的穿越中定位出簡單的特徵點,並找到一條通往目標的短路徑。雖然環境中存在多個停車特徵點,但公式 3 中的目標函數使機器人在上下文中選擇正確的停車特徵點,從而使整體行進距離最小化。

圖4(b) 強調了LM-Nav 解析有多個特徵點的指定路線的能力—儘管在無視指令路徑的情況下,直接到達最後的特徵點是最短路線,但機器人仍然能找到了一條以正確順序存取所有特徵點的路徑。

使用指令來消除歧義。由於 LM Nav 的目標是遵循指令,而不僅僅是達到最終目標,不同的指令可能導致不同的遍歷。圖 5 展示了修改指令可以消除目標的多條路徑歧義的範例。對於較短的 prompt(藍色),LM Nav 首選更直接的路徑。在指定更細粒度的路線(洋紅色)時,LM Nav 採用通過不同特徵點集的備用路徑。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

缺少特徵點的情況。雖然LM-Nav 能夠有效地解析指令中的特徵點,在圖上對它們進行定位,並找到通往目標的路徑,但這個流程依賴於這樣的假設:特徵點(i)存在於真實環境中,以及(ii)可以被VLM 辨識。圖 4(c) 顯示了這樣一種情況:可執行的路徑未能訪問其中一個特徵點—一個消防栓—於是採取了一條繞過建築物頂部而不是底部的路徑。這種失敗案例是由於 VLM 無法從機器人的觀察中發現消防栓。

在獨立評估的VLM 在檢索特徵點的功效時,研究者發現,儘管它是此類任務的最佳off-the-shelf 模型,但CLIP 無法檢索少量的「硬」特徵點,包括消防栓和水泥攪拌器。但是在許多實際情況下,機器人仍然能夠成功地找到一條訪問其餘特徵點的路徑。

定量評估

表 1 總結了該系統在 20 條指令中的量化表現。在 85% 的實驗中,LM-Nav 能夠始終遵循指令,沒有發生碰撞或脫離(平均每 6.4 公里的行進有一次幹預)。與無導航模型的 baseline 相比,LM-Nav 在執行高效、無碰撞的目標路徑方面一直表現得更好。在所有不成功的實驗中,失敗可歸因於規劃階段的能力不足——搜尋演算法無法直觀地定位圖中的某些「硬」特徵點—導致指令的不完整執行。對這些失敗模式的調查表明,系統中最關鍵的部分是 VLM 檢測不熟悉的特徵點的能力,例如消防栓,以及在具有挑戰性的照明條件下的場景,例如曝光不足的圖像。

強化學習大牛Sergey Levine新作:三個大模型教會機器人認路

#

以上是強化學習大牛Sergey Levine新作:三個大模型教會機器人認路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
使用AI代理創建個性化的新聞摘要使用AI代理創建個性化的新聞摘要Apr 12, 2025 am 11:18 AM

介紹 大語言模型(LLM)的功能正在迅速發展。它們使我們能夠構建各種LLM應用程序。這些範圍從任務自動化到工作流優化。一個令人興奮的應用程序是

美國AI政策從'安全”到'安全”急劇旋轉美國AI政策從'安全”到'安全”急劇旋轉Apr 12, 2025 am 11:15 AM

總統唐納德·特朗普(Donald Trump)在他的任期的第一天取消了前總統喬·拜登(Joe Biden)的AI行政命令(披露:我在拜登政府期間擔任國土安全部AI的高級顧問),副總統JD VA

什麼是數據庫中的典型化?什麼是數據庫中的典型化?Apr 12, 2025 am 11:10 AM

介紹 想像一下,經營一個繁忙的咖啡館,其中每一秒鐘都很重要。您沒有不斷檢查單獨的庫存和訂單列表,而是將所有關鍵詳細信息整合到一個易於閱讀的板上。這類似於Denormaliza

構建用於內容審核的多模式模型構建用於內容審核的多模式模型Apr 12, 2025 am 10:51 AM

介紹 想像一下,當一條進攻性帖子突然出現時,您正在瀏覽自己喜歡的社交媒體平台。在您點擊報告按鈕之前,它已經消失了。那是內容主音

與洞察員自動化數據見解與洞察員自動化數據見解Apr 12, 2025 am 10:44 AM

介紹 在當今數據繁多的世界中,處理龐大的數據集可能會令人不知所措。這就是洞察力的來源。它旨在使探索您的數據變得輕而易舉。只需上傳您的數據集,您就會獲得Instan

向量流:生鏽的記憶效率索引向量流:生鏽的記憶效率索引Apr 12, 2025 am 10:42 AM

介紹 正在引入嵌入中的矢量流,該功能旨在優化大規模文檔嵌入。使用RUST的並發啟用異步分塊和嵌入,可減少記憶使用情況和

什麼是補充代理? |入門指南-Analytics Vidhya什麼是補充代理? |入門指南-Analytics VidhyaApr 12, 2025 am 10:40 AM

介紹 想像一下,開發與對話相同的應用程序。將沒有復雜的開發環境可以設置,也無需查看配置文件。將概念轉換為有價值的應用程序

使用Lamini-Analytics Vidhya微調開源LLM使用Lamini-Analytics Vidhya微調開源LLMApr 12, 2025 am 10:20 AM

最近,隨著大語言模型和AI的興起,我們看到了自然語言處理方面的無數進步。文本,代碼和圖像/視頻生成等域中的模型具有存檔的人類的推理和P

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用