機器人是一種擁有無限潛力的技術,尤其在智慧技術的支持下。最近,一些具有革命性應用的大型模型被認為可能成為機器人的智慧大腦,能夠幫助機器人感知和理解世界,並做出決策和規劃。最近,由CMU的Yonatan Bisk和Google DeepMind的夏斐(Fei Xia)領導的一個聯合團隊發布了一篇綜述報告,介紹了基礎模型在機器人領域的應用和發展。
人類一直以來都夢想著開發機器人,它能夠自主地適應不同的環境。然而,實現這個夢想是一條漫長而充滿挑戰的道路。
以前,機器人的感知系統通常使用傳統的深度學習方法,這需要大量標註資料來訓練監督學習模型。然而,透過眾包方式標註大型資料集的成本非常高昂。
另外,經典的監督學習方法在泛化能力上有一定的限制。為了將這些訓練好的模型應用到特定的場景或任務中,通常需要進行領域適應技術的精心設計,這往往需要進一步的資料收集和標註。同樣,傳統的機器人規劃和控制方法也需要對環境、智能體本身以及其他智能體的動態進行精確建模。這些模型通常是針對特定的環境或任務而建構的,當情況改變時,就需要重新建構模型。這顯示經典模型的遷移性能也是有限的。
事實上,對於許多用例,建立有效模型的成本要不是太高,就是完全無法辦到。儘管基於深度(強化)學習的運動規劃和控制方法有助於緩解這些問題,但它們仍舊會受到分佈移位(distribution shift)和泛化能力降低的影響。
雖然在開發通用型機器人系統上正面臨諸多挑戰,但自然語言處理(NLP)和電腦視覺(CV)領域近來卻進展迅猛,其中包括用於NLP 的大型語言模型(LLM)、用於高保真圖像生成的擴散模型、用於零樣本/ 少樣本生成等CV 任務的能力強大的視覺模型和視覺語言模型。
所謂的「基礎模型(foundation model)」其實就是大型預訓練模型(LPTM)。它們具備強大的視覺和語言能力。近來這些模型也已經在機器人領域中得到應用,並有望賦予機器人系統開放世界感知、任務規劃甚至運動控制能力。除了將現有的視覺和 / 或語言基礎模型用於機器人領域,還有研究團隊正針對機器人任務開發基礎模型,例如用於操控的動作模型或用於導航的運動規劃模型。這些機器人基礎模型展現了強大的泛化能力,能適應不同的任務甚至具身方案。
也有研究者直接將視覺 / 語言基礎模型用於機器人任務,這展現出了將不同機器人模組融合成單一統一模型的可能性。
儘管視覺和語言基礎模型在機器人領域前景可期,全新的機器人基礎模型也正在開發中,但機器人領域仍有許多挑戰難以解決。
從實際部署角度看,模型往往是不可復現的,無法泛化到不同的機器人形態(多具身泛化)或難以準確理解環境中的哪些行為是可行的(或可接受的)。此外大多數研究使用的都是基於 Transformer 的架構,關注的重點是對物件和場景的語義感知、任務層面的規劃、控制。而機器人系統的其它部分則少有人研究,例如針對世界動態的基礎模型或可以執行符號推理的基礎模型。這些都需要跨領域泛化能力。
最後,我們也需要更多大型真實世界數據以及支援多樣化機器人任務的高保真度模擬器。
這篇綜述論文總結了機器人領域所使用的基礎模型,目標是理解基礎模型能以怎樣的方式幫助解決或緩解機器人領域的核心挑戰。
論文網址:https://arxiv.org/pdf/2312.08782.pdf
#在這篇綜述中,研究者使用的「用於機器人的基礎模型(foundation models for robotics)」這個術語涵蓋兩個方面:(1) 用於機器人的現有的(主要)視覺和語言模型,主要是透過零樣本和上下文學習;(2) 使用機器人生成的數據專門開發和利用機器人基礎模型,以解決機器人任務。他們總結了用於機器人的基礎模型的相關論文中的方法,並對這些論文的實驗結果進行了元分析(meta-analysis)。
#圖 1 展示了這篇綜述報告的主要組成部分。
圖 2 給出了這篇綜述的整體架構。
預備知識
為了幫助讀者更好地理解這篇綜述的內容,團隊首先給出了一節預備知識內容。
他們首先將介紹機器人學的基礎知識以及當前最佳技術。這裡主要聚焦於基礎模型時代之前機器人領域所使用的方法。這裡簡單說明一下,詳情請參閱原文。
- 機器人的主要元件可分為感知、決策與規劃、動作產生三大部分。
- 該團隊將機器人感知分為被動感知、主動感知和狀態估計。
- 在機器人決策和規劃部分,研究者分經典規劃方法和基於學習的規劃方法進行了介紹。
- 機器的動作生成也有經典控制方法和基於學習的控制方法。
- 接下來團隊將介紹基礎模型並主要集中在 NLP 和 CV 領域,涉及的模型包括:LLM、VLM、視覺基礎模型、文字條件式影像生成模型。
機器人領域面臨的挑戰
#這一節總結了典型機器人系統的不同模組所面臨的五大核心挑戰。圖 3 給出了這五大挑戰的分類。
1.泛化
## 機器人系統往往難以準確感知和理解其環境。它們也沒有能力將在一個任務上的訓練成果泛化到另一個任務,這會進一步限制它們在真實世界中的實用性。此外,由於機器人硬體不同,將模型遷移用於不同形態的機器人也很困難。透過將基礎模型用於機器人,可以部分解決泛化問題。 而在不同機器人形態上泛化這樣更進一步的問題還有待解答。 2.資料稀缺 為了開發可靠的機器人模型,大規模的高品質資料至關重要。人們已經在努力嘗試從現實世界收集大規模資料集,包括自動價值、機器人操作軌跡等。並且從人類演示收集機器人數據的成本很高。而由於任務和環境的多樣性,在現實世界中收集足夠且廣泛的數據的過程會更加複雜。此外,在現實世界收集資料還會有安全方面的疑慮。 為了解決這些挑戰,許多研究工作都嘗試了在模擬環境中產生合成資料。這些模擬能提供真實感很強的虛擬世界,讓機器人可以在接近真實的場景中學習和使用自己的技能。但是,使用模擬環境也有局限性,尤其是在物體的多樣性方面,這使得所學到的技能難以直接用於真實世界情況。 另外,在現實世界中,大規模收集數據非常困難,而要收集到訓練基礎模型所使用的互聯網規模級的圖像/ 文本數據,那就更困難了。 一種頗具潛力的方法是協作式資料收集,即將不同實驗室環境和機器人類型的資料收集在一起,如圖 4a 所示。但是,該團隊深度研究了 Open-X Embodiment Dataset,發現在資料類型可用性方面仍有一些限制。#
為了得到通用型智能體,一大關鍵挑戰是理解任務規範並將其根植於機器人對世界的當前理解中。通常而言,這些任務規範由使用者提供,但使用者只能有限地理解機器人的認知和物理能力的限制。這會帶來很多問題,不僅包括能為這些任務規範提供什麼樣的最佳實踐,而且還有起草這些規範是否足夠自然和簡單。基於機器人對自身能力的理解,理解和解決任務規範中的模糊性也充滿挑戰。
5.不確定性和安全性
為了在現實世界中部署機器人,一大關鍵挑戰是處理環境和任務規範中固有的不確定性。根據來源的不同,不確定性可以分為認知不確定性(缺乏知識導致不確定)和偶然不確定性(環境中固有的噪音)。
不確定性量化(UQ)的成本可能會高得讓研究和應用難以為繼,也可能讓下游任務無法被最優地解決。有鑑於基礎模型大規模過度參數化的性質,為了在不犧牲模型泛化性能的同時實現可擴展性,提供能保留訓練方案同時又盡可能不改變底層架構的 UQ 方法至關重要。設計能提供對自身行為的可靠置信度估計,並反過來聰明地請求清晰說明回饋的機器人仍然是一個尚未解決的挑戰。
最近雖有一些進展,但要確保機器人有能力學習經驗,從而在全新環境中微調自己的策略並確保安全,這一點依然充滿挑戰。
目前研究方法概況
這一節總結了用於機器人的基礎模型的當前研究方法。團隊將機器人領域所使用的基礎模型分成了兩大類:用於機器人的基礎模型和機器人基礎模型(RFM)。
用於機器人的基礎模型主要是指以零樣本的方式將視覺和語言基礎模型用於機器人,也就是說無需額外的微調或訓練。機器人基礎模型則可能使用視覺 - 語言預訓練初始化來進行熱啟動和 / 或直接在機器人資料集上訓練模型。
圖5 給出了分類詳情
1.用於機器人的基礎模型
這一小節關注的是視覺和語言基礎模型在機器人領域的零樣本應用。這主要包括將 VLM 以零樣本方式部署到機器人感知應用中,將 LLM 的情境學習能力用於任務層面和運動層面的規劃以及動作生成。圖 6 展示了一些代表性的研究工作。
#2.機器人基礎模型(RFM)
#隨著包含來自真實機器人的狀態- 動作對的機器人資料集的增長,機器人基礎模型(RFM)類別同樣變得越來越有可能成功。這些模型的特點是使用了機器人資料來訓練模型解決機器人任務。
這一小節將總結並討論不同類型的 RFM。首先是能在單一機器人模組中執行一類任務的 RFM,這也稱為單目標機器人基礎模型。例如能產生控制機器人的低層級動作的 RFM 或可以產生更高層運動規劃的模型。
之後會介紹能在多個機器人模組中執行任務的 RFM,也就是能執行感知、控制甚至非機器人任務的通用模型。
3.基礎模型能如何幫助解決機器人挑戰?
前面列出了機器人領域面臨的五大挑戰。這一小節將介紹基礎模型可以如何幫助解決這些挑戰。
所有與視覺訊息相關的基礎模型(如 VFM、VLM 和 VGM)都可用於機器人的感知模組。而 LLM 的功能更多樣化,可用於規劃和控制。機器人基礎模型(RFM)通常用於規劃和動作生成模組。表 1 總結了解決不同機器人挑戰的基礎模型。
從表中可以看到,所有基礎模型都擅長泛化各種機器人模組的任務。 LLM 尤其擅長任務規範。另一方面,RFM 擅長應對動態模型的挑戰,因為大多數 RFM 都是無模型方法。對於機器人感知來說,泛化能力和模型的挑戰是相互耦合的,因為如果感知模型已經具有很好的泛化能力,就不需要獲得更多數據來執行領域適應或額外微調。
另外,在安全挑戰方面還缺乏研究,這會是重要的未來研究方向。
目前的實驗和評估概況
這一節總結了目前研究成果的資料集、基準和實驗。
1.資料集和基準
僅依靠從語言和視覺資料集學到的知識是存在局限的。正如一些研究成果表明的那樣,摩擦力和重量等一些概念無法僅透過這些模態輕鬆學習。
因此,為了讓機器人智能體能更好地理解世界,研究社群不僅在適應來自語言和視覺領域的基礎模型,也在推進開發用於訓練和微調這些模型的大型多樣化多模態機器人資料集。
目前這些工作分為兩大方向:從現實世界收集資料以及從模擬世界收集資料再將其遷移到現實世界。每個方向各有優劣。其中從現實世界收集的資料集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模擬器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。
2.對目前方法的評估分析
#該團隊的另一大貢獻是對本綜述報告中提到的論文中的實驗進行了統合分析,這可以幫助作者釐清以下問題:
- 人們研究解決的是哪些任務?
- 訓練模型使用了哪些資料集或模擬器?測試用的機器人平台有哪些?
- 研究社群使用了哪些基礎模型?解決任務的效果如何?
- 這些方法中更常使用哪些基礎模型?
表 2-7 和圖 11 給出了分析結果。
- 該團隊從中總結了一些關鍵趨勢:
- 研究社區對機器人操作任務的關注不平衡
- 泛化能力和穩健性需要提升
討論和未來方向
- 該團隊總結了一些仍待解決的挑戰與值得討論的研究方向:
- 為機器人具身設定標準基礎(grounding)
- 安全性與不確定性
- 端對端方法和模組化方法是否無法相容?
- 對具身的物理變化的適應能力
- 世界模型方法還是與模型無關的方法?
以上是機器人:基礎模型的進展如何的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版
中文版,非常好用

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),