揭示基礎模型與機器人發展道路的綜述-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

揭示基礎模型與機器人發展道路的綜述

王林

Jan 15, 2024 pm 09:24 PM

模型訓練

無需改變原意，機器人是一種技術，可以有無限的可能性，尤其是當與智慧技術結合時。最近，一些具有革命性應用的大型模型有望成為機器人的智慧中樞，幫助機器人感知和理解世界，做出決策和規劃

近日，CMU 的Yonatan Bisk 和Google DeepMind夏斐（Fei Xia）領導的聯合團隊發布了一篇綜述報告，介紹了基礎模型在機器人領域的應用和發展。報告的 first aurthor 是 CMU 的博士四年級學生胡亞非（Yafei Hu），他的研究集中在機器人和人工智慧的交叉應用上。與他合作的是謝泉廷（Quanting Xie），專注於透過基礎模型探索具身智能（embodied intelligence）。

揭示基礎模型與機器人發展道路的綜述

論文網址：https://arxiv.org/pdf/2312.08782.pdf

開發能自主適應不同環境的機器人是人類一直以來的夢想，但這卻是一條漫長且充滿挑戰的道路。先前，利用傳統深度學習方法的機器人感知系統通常需要大量有標註資料來訓練監督學習模型，而如果透過眾包方式來標註大型資料集，成本又非常高。

此外，由於經典監督學習方法的泛化能力有限，為了將這些模型部署到具體的場景或任務，這些訓練得到的模型通常還需要精心設計的領域適應技術，而這又通常需要進一步的資料收集和標註步驟。類似地，經典的機器人規劃和控制方法通常需要仔細地建模世界、智能體自身的動態和 / 或其它智能體的動態。這些模型通常是針對各個特定環境或任務所建構的，而當情況有變時，就需要重新建構模型。這說明經典模型的遷移性能也有限。

事實上，對於許多用例，建立有效模型的成本要不是太高，就是完全無法辦到。儘管基於深度（強化）學習的運動規劃和控制方法有助於緩解這些問題，但它們仍舊會受到分佈移位（distribution shift）和泛化能力降低的影響。

雖然在開發通用型機器人系統上正面臨諸多挑戰，但自然語言處理（NLP）和電腦視覺（CV）領域近來卻進展迅猛，其中包括用於NLP 的大型語言模型（LLM）、用於高保真圖像生成的擴散模型、用於零樣本/ 少樣本生成等CV 任務的能力強大的視覺模型和視覺語言模型。

所謂的「基礎模型（foundation model）」其實就是大型預訓練模型（LPTM）。它們具備強大的視覺和語言能力。近來這些模型也已經在機器人領域中得到應用，並有望賦予機器人系統開放世界感知、任務規劃甚至運動控制能力。除了將現有的視覺和 / 或語言基礎模型用於機器人領域，還有研究團隊正針對機器人任務開發基礎模型，例如用於操控的動作模型或用於導航的運動規劃模型。這些機器人基礎模型展現了強大的泛化能力，能適應不同的任務甚至具身方案。也有研究者直接將視覺 / 語言基礎模型用於機器人任務，這展現了將不同機器人模組融合成單一統一模型的可能性。

儘管視覺和語言基礎模型在機器人領域前景可期，全新的機器人基礎模型也正在開發中，但機器人領域仍有許多挑戰難以解決。

從實際部署角度看，模型往往是不可復現的，無法泛化到不同的機器人形態（多具身泛化）或難以準確理解環境中的哪些行為是可行的（或可接受的）。此外，大多數研究使用的都是基於 Transformer 的架構，關注的重點是對物件和場景的語義感知、任務層面的規劃、控制。而機器人系統的其它部分則少有人研究，例如針對世界動態的基礎模型或可以執行符號推理的基礎模型。這些都需要跨領域泛化能力。

最後，我們也需要更多大型真實世界數據以及支援多樣化機器人任務的高保真度模擬器。

這篇綜述論文總結了機器人領域所使用的基礎模型，目標是理解基礎模型能以怎樣的方式幫助解決或緩解機器人領域的核心挑戰。

在這篇綜述中，研究人員使用的"基礎模型（foundation models）"這個術語包含了機器人領域的兩個方面：(1) 目前已存在的主要視覺和語言模型，主要是透過零樣本和上下文學習來實現；(2) 使用機器人生成的數據專門開發和應用基礎模型，解決機器人任務。研究人員總結了相關論文中關於基礎模型的方法，並對這些論文的實驗結果進行了統合分析

揭示基礎模型與機器人發展道路的綜述

綜述的整體結構

預備知識

為了幫助讀者更好地理解這篇綜述的內容，團隊首先提供了一節預備知識的內容

他們首先將介紹機器人學的基礎知識以及當前最佳技術。這裡主要聚焦於基礎模型時代之前機器人領域所使用的方法。這裡進行簡單說明，詳情請參閱原論文。

機器人的主要元件可分為感知、決策與規劃、動作產生三大部分。 該團隊將機器人感知分為被動感知、主動感知和狀態估計。
在機器人決策和規劃部分，研究者分經典規劃方法和基於學習的規劃方法進行了介紹。
機器的動作生成也有經典控制方法和基於學習的控制方法。

接下來團隊將介紹基礎模型並主要集中在NLP 和CV 領域，涉及的模型包括：LLM、VLM、視覺基礎模型、文字條件式圖像生成模型。

機器人領域面臨的挑戰

典型機器人系統的不同模組所面臨的五大核心挑戰。圖 3 展示了這五大挑戰的分類。

揭示基礎模型與機器人發展道路的綜述

#泛化

機器人系統往往難以準確地感知和理解其環境。它們也沒有能力將在一個任務上的訓練成果泛化到另一個任務，這會進一步限制它們在真實世界中的實用性。此外，由於機器人硬體不同，將模型遷移用於不同形態的機器人也很困難。透過將基礎模型用於機器人，可以部分解決泛化問題。而在不同機器人形態上泛化這樣更進一步的問題還有待解答。

資料稀缺

為了開發出可靠的機器人模型，大規模的高品質資料至關重要。人們已經在努力嘗試從現實世界收集大規模資料集，包括自動駕駛、機器人操作軌跡等。並且從人類演示收集機器人數據的成本很高。不過，由於任務和環境的多樣性，在現實世界中收集足夠且廣泛的數據的過程會更加複雜。在現實世界收集資料還會有安全方面的疑慮。另外，在現實世界中，大規模收集數據非常困難，而要收集到訓練基礎模型所使用的互聯網規模級的圖像/文本數據，那就更困難了。

為了解決這些挑戰，許多研究工作都試圖在模擬環境中產生合成資料。這些模擬環境能夠提供非常逼真的虛擬世界，使得機器人能夠在接近真實場景的情況下學習和運用自己的技能。然而，使用模擬環境也存在一些局限性，特別是在物體多樣性方面，這導致所學到的技能難以直接應用於真實世界情境

一種頗具潛力的方法是協作式資料收集，即將不同實驗室環境和機器人類型的資料收集在一起，如圖4a 所示。但是，該團隊深度研究了 Open-X Embodiment Dataset，發現在資料類型可用性方面仍有一些限制。

揭示基礎模型與機器人發展道路的綜述

模型與原文要求

經典的規劃和控制方法通常需要精心設計的環境和機器人模型。先前的學習為基礎的方法（如模仿學習和強化學習）是以端到端的方式訓練策略，也就是直接根據感官輸入獲取控制輸出，這樣能避免建構和使用模型。這些方法能部分解決依賴明確模型的問題，但它們往往難以泛化地用於不同的環境和任務。

有兩個問題要解決：(1) 如何學習那些與模型無關，能夠良好泛化的策略？ (2) 如何學習優秀的世界模型，從而應用經典的模型為基礎的方法？

任務規範

為了得到通用型智能體，一大關鍵挑戰是理解任務規範並將其根植於機器人對世界的當前理解。通常而言，這些任務規範由使用者提供，但使用者只能有限地理解機器人的認知和物理能力的限制。這會帶來許多問題，包括能為這些任務規範提供什麼樣的最佳實踐，還有起草這些規範是否夠自然簡單。基於機器人對自身能力的理解，理解和解決任務規範中的模糊性也充滿挑戰。

不確定性和安全性

#為了在現實世界中部署機器人，一大關鍵挑戰是處理環境和任務規範中固有的不確定性。根據來源的不同，不確定性可以分為認知不確定性（缺乏知識導致不確定）和偶然不確定性（環境中固有的噪音）。

不確定性量化（UQ）的成本可能會高得讓研究和應用難以為繼，也可能讓下游任務無法被最優地解決。有鑑於基礎模型大規模過度參數化的性質，為了在不犧牲模型泛化性能的同時實現可擴展性，提供能保留訓練方案同時又盡可能不改變底層架構的 UQ 方法至關重要。設計能提供對自身行為的可靠置信度估計，並反過來聰明地請求清晰說明回饋的機器人仍然是一個尚未解決的挑戰。

最近雖有一些進展，但要確保機器人有能力學習經驗，從而在全新環境中微調自己的策略並確保安全，這一點還依然充滿挑戰。

目前研究方法概況

本文也總結了用於機器人的基礎模型的當前研究方法。團隊將機器人領域使用的基礎模型分成了兩大類：用於機器人的基礎模型和重寫的內容是：機器人基礎模型（RFM）。

機器人的基礎模型是指無需額外微調或訓練，以零樣本的方式將視覺和語言基礎模型用於機器人。機器人基礎模型可以透過視覺- 語言預訓練初始化來進行熱啟動，或直接在機器人資料集上訓練模型

揭示基礎模型與機器人發展道路的綜述

詳細分類

用於機器人的基礎模型

#這段內容的重寫如下：這部分內容著重於在機器人領域中將視覺和語言基礎模型應用到零樣本情境。其中，主要包括將VLM零樣本部署到機器人感知應用中，以及將LLM的情境學習能力應用於任務層面與運動層面的規劃與動作生成。圖6展示了一些典型的研究工作

揭示基礎模型與機器人發展道路的綜述

#重寫的內容是：機器人基礎模型（RFM）

揭示基礎模型與機器人發展道路的綜述

隨著包含來自真實機器人的狀態-動作對的機器人資料集的成長，重寫的內容是：機器人基礎模型（RFM）類別同樣變得越來越有可能成功。這些模型的特點是使用了機器人資料來訓練模型解決機器人任務。

研究團隊在討論中總結了不同類型的 RFM。首先是能夠在單一機器人模組中執行特定任務的 RFM，也被稱為單目標機器人基礎模型。例如，能夠產生控制機器人低層動作的 RFM 或能夠產生更高層運動規劃的模型。文章中也介紹了能夠在多個機器人模組中執行任務的RFM，即通用模型，可以執行感知、控制甚至非機器人任務

##基礎模型在解決機器人挑戰方面有什麼作用？

前文列出了機器人領域面臨的五大挑戰。這裡將介紹基礎模型可以如何幫助解決這些挑戰。

所有與視覺訊息相關的基礎模型（如 VFM、VLM 和 VGM）都可用於機器人的感知模組。而 LLM 的功能更多樣化，可用於規劃和控制。重寫的內容是：機器人基礎模型（RFM）通常用於規劃和動作生成模組。表 1 總結了解決不同機器人挑戰的基礎模型。

揭示基礎模型與機器人發展道路的綜述

從表中可以看出，所有的基礎模型都能夠很好地泛化不同機器人模組的任務。特別是LLM在任務規範方面表現出色。另一方面，RFM則擅長應對動態模型的挑戰，因為大多數RFM都是無模型方法。對於機器人的感知能力而言，泛化能力和模型的挑戰是相互關聯的。如果感知模型已經具備了良好的泛化能力，那麼就不需要獲取更多的數據來進行領域適應或額外微調了

另外，在安全挑戰方面還缺乏研究，這會是重要的未來研究方向。

目前的實驗和評估概況

這一部分總結了目前研究成果的資料集、基準和實驗。

資料集和基準

#僅依靠從語言和視覺資料集學到的知識是存在局限的。正如一些研究成果表明的那樣，摩擦力和重量等一些概念無法僅透過這些模態輕鬆學習。

因此，為了讓機器人智能體能更好地理解世界，研究社群不僅在適應來自語言和視覺領域的基礎模型，也在推進開發用於訓練和微調這些模型的大型多樣化多模態機器人資料集。

目前這些工作可以分為兩個主要方向：一方面是從現實世界收集數據，另一方面是從模擬世界收集數據並將其遷移到現實世界。每個方向都有其優點和缺點。從現實世界收集的資料集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。常用的模擬器包括Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等

##對目前方法的評估分析（Meta-Analysis）

該團隊的另一個重大貢獻是對本綜述報告中提到的論文中的實驗進行了元分析，這可以為理清以下問題有所幫助：

1. 人們研究解決的是哪些任務？

2. 訓練模型使用了哪些資料集或模擬器？測試用的機器人平台有哪些？

3. 研究社群使用了哪些基礎模型？解決任務的效果如何？

4. 這些方法中較常使用哪些基礎模型？

表 2-7 和圖 11 給出了分析結果。

揭示基礎模型與機器人發展道路的綜述

該團隊透過Meta-analysis 得到的一些主要觀察：

###

研究社群對機器人操作任務（Manipulation）的關注不平衡

#泛化能力（Generalization）和穩健性需要提升

對低層動作（Low-level Control）的探索很有限

#控制頻率太低（

缺乏統一的測試基準（Metrics）和測試平台（Simulation or Hardware），使得對比變得非常困難。

討論和未來方向

該團隊總結了一些仍待解決的挑戰和值得討論的研究方向：

如何為機器人具身設定標準基礎（grounding）？
安全（Safety）和不確定性（Uncertainty）？
端對端方法（end-to-end）和模組化（Modular）方法是否無法相容？
對具身的物理變化的適應#能力
世界模型（World Model）方法還是與模型無關的方法？
新機器人平台與多感官資訊

############標準化和可復現能力（Reproducibility）##########

以上是揭示基礎模型與機器人發展道路的綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

易於理解的解釋如何在Chatgpt中建立兩步身份驗證！May 12, 2025 pm 05:37 PM

CHATGPT SECURICE增強：兩階段身份驗證（2FA）配置指南需要兩因素身份驗證（2FA）作為在線平台的安全措施。本文將以易於理解的方式解釋2FA設置過程及其在CHATGPT中的重要性。這是為那些想要安全使用chatgpt的人提供的指南。單擊此處獲取OpenAI最新的AI代理OpenAi Deep Research⬇️ [chatgpt]什麼是Openai深入研究？關於如何使用它和費用結構的詳盡解釋！目錄 chatg

[針對企業] Chatgpt培訓|對8種免費培訓選項，補貼和示例進行了詳盡的介紹！May 12, 2025 pm 05:35 PM

生成的AI的使用吸引了人們的關注，這是提高業務效率和創造新業務的關鍵。特別是，由於其多功能性和準確性，許多公司都採用了Openai的Chatgpt。但是，可以有效利用chatgpt的人員短缺是實施它的主要挑戰。在本文中，我們將解釋“ ChatGpt培訓”的必要性和有效性，以確保在公司中成功使用Chatgpt。我們將介紹廣泛的主題，從ChatGpt的基礎到業務使用，特定的培訓計劃以及如何選擇它們。 CHATGPT培訓提高員工技能

關於如何使用Chatgpt簡化您的Twitter操作的詳盡解釋！May 12, 2025 pm 05:34 PM

社交媒體運營的提高效率和質量至關重要。特別是在實時重要的平台上，例如Twitter，需要連續交付及時和引人入勝的內容。在本文中，我們將解釋如何使用具有先進自然語言處理能力的AI的Chatgpt操作Twitter。通過使用CHATGPT，您不僅可以提高實時響應功能並提高內容創建的效率，而且還可以製定符合趨勢的營銷策略。此外，使用預防措施

[對於Mac]說明如何開始以及如何使用ChatGpt桌面應用程序！May 12, 2025 pm 05:33 PM

CHATGPT MAC桌面應用程序詳細指南：從安裝到音頻功能最後，Chatgpt的Mac桌面應用程序現已可用！在本文中，我們將徹底解釋從安裝方法到有用的功能和將來的更新信息的所有內容。使用桌面應用程序獨有的功能，例如快捷鍵，圖像識別和語音模式，以極大地提高您的業務效率！安裝桌面應用的ChatGpt Mac版本從瀏覽器訪問：首先，在瀏覽器中訪問chatgpt。

chatgpt的角色限制是什麼？解釋如何避免它和模型上限May 12, 2025 pm 05:32 PM

當使用chatgpt時，您是否曾經有過這樣的經驗，例如“輸出在中途停止”或“即使我指定了字符的數量，它也無法正確輸出”？該模型非常開創性，不僅允許自然對話，而且還允許創建電子郵件，摘要論文，甚至允許產生諸如小說之類的創意句子。但是，ChatGpt的弱點之一是，如果文本太長，輸入和輸出將無法正常工作。 Openai的最新AI代理“ Openai Deep Research”

什麼是Chatgpt的語音輸入和語音對話功能？解釋如何設置以及如何使用它May 12, 2025 pm 05:27 PM

Chatgpt是Openai開發的創新AI聊天機器人。它不僅具有文本輸入，而且還具有語音輸入和語音對話功能，從而可以進行更自然的交流。在本文中，我們將解釋如何設置和使用Chatgpt的語音輸入和語音對話功能。即使您不能脫身，Chatp Plans也通過與您交談來做出回應並回應音頻，這在繁忙的商業情況和英語對話練習等各種情況下都帶來了很大的好處。關於如何設置智能手機應用程序和PC的詳細說明以及如何使用。

易於理解的解釋如何使用Chatgpt進行求職和尋找工作！May 12, 2025 pm 05:26 PM

成功的快捷方式！使用chatgpt有效的工作變更策略在當今加劇的工作變更市場中，有效的信息收集和徹底的準備是成功的關鍵。諸如Chatgpt之類的高級語言模型是求職者的強大武器。在本文中，我們將解釋如何有效利用Chatgpt來提高您的工作企業效率，從自我分析到申請文件和麵試準備。節省時間和學習技術，以充分展示您的優勢，並幫助您成功搜索工作。目錄使用chatgpt的狩獵工作示例自我分析的效率：聊天

易於理解的解釋如何使用ChatGpt創建和輸出思維地圖！May 12, 2025 pm 05:22 PM

思維地圖是組織信息並提出想法的有用工具，但是創建它們可能需要時間。使用Chatgpt可以大大簡化此過程。本文將詳細說明如何使用chatgpt輕鬆創建思維地圖。此外，通過創建的實際示例，我們將介紹如何在各種主題上使用思維圖。了解如何使用Chatgpt有效地組織和可視化您的想法和信息。 Openai的最新AI代理OpenA

See all articles