大模型+機器人，詳盡的綜述報告來了，多位華人學者參與-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

大模型+機器人，詳盡的綜述報告來了，多位華人學者參與

PHPz

Jan 12, 2024 am 08:33 AM

機器人大模型產業

大模型的出色能力有目共睹，而如果將它們整合進機器人，則有望讓機器人擁有一個更智能的大腦，為機器人領域帶來新的可能性，例如自動駕駛、家用機器人、工業機器人、輔助機器人、醫療機器人、現場機器人和多機器人系統。

預先訓練的大型語言模型（LLM）、大型視覺- 語言模型（VLM）、大型音訊- 語言模型（ALM）和大型視覺導航模型（VNM）可以用於更好地處理機器人領域的各種任務。將基礎模型整合進機器人是一個快速發展的領域，機器人社群最近已經開始探索將這些大模型用於需要重新書寫的是：知覺、預測、規劃和控制等機器人領域。

最近，一支由史丹佛大學、普林斯頓大學以及英偉達和Google DeepMind等多家企業組成的聯合研究團隊發布了一篇綜述報告，總結了機器人研究領域中基礎模型的發展和未來挑戰

大模型+機器人，詳盡的綜述報告來了，多位華人學者參與

論文網址：https://arxiv.org/pdf/2312.07843.pdf
重寫的內容是：論文庫：https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

團隊成員中有很多我們熟悉的華人學者，包括朱玉可、宋舒然、吳佳俊、盧策吾等。

廣泛使用大規模資料進行預訓練的基礎模型，在微調後可以適用於各種下游任務。這些基礎模型在視覺和語言處理領域取得了重大突破，其中包括BERT、GPT-3、GPT-4、CLIP、DALL-E和PaLM-E等相關模型

在基礎模型出現之前，用於機器人的傳統深度學習模型的訓練所使用的都是為不同任務收集的有限資料集。相反，基礎模型則是會使用大範圍多樣化資料進行預先訓練，在其他領域（例如自然語言處理、電腦視覺和醫療保健）的應用證明了其適應能力、泛化能力和整體表現表現。最終，基礎模型也有望在機器人領域展現出自己的潛力。圖 1 展示了基礎模型在機器人領域的概況。

大模型+機器人，詳盡的綜述報告來了，多位華人學者參與

比較相比於針對特定任務的模型，從基礎模型遷移知識有可能減少訓練時間和運算資源。尤其是在機器人相關領域，多模態基礎模型可以將從不同感測器收集的多模態異質資料融合和對齊成緊湊的緊湊同質表徵，而這正是機器人理解和推理所需的。其學習到的表徵可望用於自動化技術棧的任何部分，包括需要重新書寫的是：知覺、決策和控制。

不僅如此，基礎模型還能提供零樣本學習能力，也就是讓 AI 系統有能力在沒有任何範例或針對性訓練的前提下執行任務。這能讓機器人將所學廣泛到全新的用例，並增強機器人在非結構化環境中的適應能力和靈活性。

將基礎模型整合進機器人系統能提升機器人需要重新書寫的是：知覺環境以及與環境互動的能力，有可能實現上下文需要重新書寫的是：知覺型機器人系統。

舉個例子，在需要重新書寫的是：知覺領域，大型視覺- 語言模型（VLM）能夠學習視覺和文字資料之間的關聯，從而具備跨模態理解能力，從而輔助零樣本影像分類、零樣本目標偵測和3D 分類等任務。再舉個例子，3D 世界中的語言定基（language grounding，即將VLM 的上下文理解與3D 現實世界對齊）可以透過將話語與3D 環境中的具體物件、位置或動作關聯起來，從而增強機器人的空間需要重新書寫的是：知覺能力。

在決策或規劃領域，研究發現 LLM 和 VLM 可以輔助機器人規範涉及高層規劃的任務。

透過利用與操作、導航和互動有關的語言線索，機器人可以執行更複雜的任務。例如對於模仿學習和強化學習等機器人策略學習技術，基礎模型似乎有能力提升資料效率和情境理解能力。特別是語言驅動的獎勵可透過提供經過塑造的獎勵來引導強化學習智能體。

另外，研究者也已經在利用語言模型來為策略學習技術提供回饋。一些研究表明，VLM 模型的視覺問答（VQA）能力可以用於機器人使用案例。舉個例子，已有研究者使用 VLM 來回答與視覺內容相關的問題，以幫助機器人完成任務。另外，也有研究者使用 VLM 來幫助資料標註，為視覺內容產生描述標籤。

儘管基礎模型在視覺和語言處理方面具備變革性的能力，但對於現實世界的機器人任務來說，基礎模型的泛化和微調依然頗具挑戰性。

這些挑戰包括：

1) 資料缺乏：如何取得網路規模級的資料來支援機器人操作、定位、導航等任務，並且如何利用這些資料進行自我監督訓練；

2) 巨大的差異性：如何應對物理環境、實體機器人平台和潛在的機器人任務的巨大多樣性，同時保持基礎模型所需的通用性；

3) 不確定性的量化問題：如何解決實例層面的不確定性（例如語言歧義或LLM 幻覺）、分佈層面的不確定性和分佈移位問題，尤其是閉環的機器人部署引起的分佈移位問題。

4) 安全評估：如何在部署之前、更新過程中、工作過程中對基於基礎模型的機器人系統進行嚴格測試。

5) 即時效能：如何應對某些基礎模型推理時間長的問題—— 這會有礙基礎模型在機器人上的部署，以及如何加速基礎模型的推理—— 這是在線決策所需的。

這篇綜述論文總結了目前機器人領域中基礎模型的使用。研究人員調查了目前的方法、應用和挑戰，並提出了未來研究方向來解決這些挑戰。他們還指出了將基礎模型用於實現機器人自主能力可能存在的潛在風險

基礎模型背景知識

基礎模型具有數以十億計的參數，而且使用互聯網級別的大規模資料進行預訓練。訓練如此龐大且複雜的模型需要非常高的成本。取得、處理和管理資料的成本也會很高。其訓練過程需要大量的運算資源，需要使用GPU或TPU等專用硬件，並且還需要用於模型訓練的軟體和基礎設施，這都需要資金投入。此外，基礎模型的訓練時間也很長，這也會導致高成本。因此，這些模型通常作為可插拔模組使用，即將基礎模型整合到各種應用中，而無需進行大量的客製化工作

表 1 給出了常用基礎模型的細節。

大模型+機器人，詳盡的綜述報告來了，多位華人學者參與

本節將聚焦在LLM、視覺Transformer、VLM、具身多模態語言模型和視覺生成模型。此外，還將介紹用於訓練基礎模型的不同訓練方法

他們首先介紹了一些相關的術語和數學知識，其中涉及token 化、生成模型、判別模型、Transformer 架構、自回歸模型、掩碼式自動編碼、對比學習和擴散模型。

然後他們介紹了大型語言模型（LLM）的範例和歷史背景。之後重點說明了視覺 Transformer、多模態視覺 - 語言模型（VLM）、具身多模態語言模型、視覺生成模型。

機器人研究

這一節關注的是機器人決策、規劃和控制。在這一領域，大型語言模型（LLM）和視覺語言模型（VLM）都有潛力用於增強機器人的能力。舉個例子，LLM 可以促進任務規範過程，讓機器人可以接收和解讀來自人類的高階指令。

VLM 也有望為這一領域做出貢獻。 VLM 擅長分析視覺資料。要讓機器人做出明智的決策和執行複雜的任務，視覺理解能力是至關重要的。現在，機器人可以使用自然語言線索來增強自己執行操作、導航和互動相關任務的能力。

基於目標的視覺 - 語言策略學習（不管是透過模仿學習還是強化學習）有望透過基礎模型獲得提升。語言模型也能為策略學習技術提供回饋。這個回饋循環有助於持續提升機器人的決策能力，因為機器人可以根據從 LLM 收到的回饋來優化自己的行動。

這一節關注的是 LLM 和 VLM 在機器人決策領域的應用。

這一節分為六個部分。其中第一部分介紹了用於決策和控制和機器人策略學習，其中包括基於語言的模仿學習和語言輔助的強化學習。

第二部分是基於目標的語言 - 圖像價值學習。

第三部分介紹了使用大型語言模型來規劃機器人任務，其中包括透過語言指令來說明任務以及使用語言模型產生任務規劃的程式碼。

第四部分是用於決策的脈絡學習（ICL）。

下一個要介紹的是機器人變形金剛

第六部分則是開放詞彙庫的機器人導航和操作。

表 2 給出了一些特定於機器人的基礎模型，其中報告了模型的大小和架構、預訓練任務、推理時間和硬體設定。

大模型+機器人，詳盡的綜述報告來了，多位華人學者參與

要重新書寫的是：知覺

與周圍環境互動的機器人會接收不同模態的感官訊息，例如影像、視訊、音訊和語言。這種高維度資料對機器人在環境中的理解、推理和互動至關重要。基礎模型可以將這些高維輸入轉換成容易解讀和操作的抽象結構化表徵。尤其是多模態基礎模型可讓機器人將不同感官的輸入整合成一個統一的表徵，其中包含語意、空間、時間和可供性資訊。這些多模態模型需要跨模態的交互，通常需要對齊不同模態的元素來確保一致性和相互對應。例如圖像描述任務就需要文字和圖像資料對齊。

這一節將專注於與機器人需要重新書寫的是：知覺相關的一系列任務，這些任務可使用基礎模型來對齊模態，從而獲得提升。其中的重點是視覺和語言。

這一節分為五個部分，首先是開放詞彙庫的目標檢測和3D 分類，然後是開放詞彙庫的語義分割，接下來是開放詞彙庫的3D 場景和目標表徵，然後是學習到的功能可供性，最後是預測模型。

具身AI

近段時間，有研究顯示LLM 可以成功用於具身AI 領域，其中「具身（embodied）」通常是指在世界模擬器中的虛擬具身，而非具有實體機器人身體。

這方面已經出現了一些有趣的框架、資料集和模型。其中尤其值得一提的是將 Minecraft 遊戲用作訓練具身智能體的平台。舉個例子，Voyager 使用了 GPT-4 來引導智能體探索 Minecraft 環境。其能透過上下文 prompt 設計來與 GPT-4 互動，而無需對 GPT-4 的模型參數進行微調。

強化學習是機器人學習領域的重要研究方向，研究者們正在嘗試使用基礎模型來設計獎勵函數以優化強化學習

對於機器人執行高層規劃，研究者一直在探索使用基礎模型來輔助。此外，還有一些研究者試圖將基於思考鏈的推理和動作生成方法應用於具身智能體

#挑戰與未來方向

這一節會給出將基礎模型用於機器人的相關挑戰。該團隊也會探索可望解決這些挑戰的未來研究方向。

第一個挑戰是克服訓練用於機器人的基礎模型時的數據稀缺問題，其中包括：

1. 使用未經結構化的遊戲數據和未標記的人類視頻來拓展機器人學習

2. 使用圖像修復（Inpainting）來增強數據

3. 克服訓練3D 基礎模型時的缺少3D 數據的問題

#4. 通過高保真模擬來產生合成資料

5. 使用VLM 進行資料增強使用VLM 進行資料增強是一種有效的方法

6. 機器人的物理技能受限於技能的分佈

第二個挑戰則與即時效能有關，其中關鍵的是基礎模型的推理時間。

第三個挑戰涉及多模態表徵的限制。

第四個挑戰則是如何量化不同層級的不確定性的問題，例如實例層面和分佈層面，另外還涉及到如何校準以及應對分佈移位的難題。

第五個挑戰涉及安全評估，包括部署之前的安全測試和運行時的監控和對分佈外情況的檢測。

第六個挑戰則涉及如何選擇：使用現有的基礎模型還是為機器人建立新的基礎模型？

第七個挑戰涉及到機器人設定中的高度可變性。

第八個挑戰是如何在機器人設定中進行基準評估以及保證可複現性。

更多研究細節，可參考原論文。

以上是大模型+機器人，詳盡的綜述報告來了，多位華人學者參與的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

AI內部部署的隱藏危險：治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示，先進的AI系統的不受檢查的內部部署構成了重大風險。在大型人工智能公司中缺乏監督，普遍存在，允許潛在的災難性結果

構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針，打印出受試者生命體徵和身體反應的測謊儀，在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因，儘管它曾導致許多無辜者入獄。相比之下，人工智能是一個強大的數據引擎，其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。一種方法是像測謊儀一樣分析被審問者的生命體徵反應，但採用更詳細、更精確的比較分析。另一種方法是利用語言標記來分析人們實際所說的話，並運用邏輯和推理。俗話說，一個謊言會滋生另一個謊言，最終

AI是否已清除航空航天行業的起飛？Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅，它利用AI應對其最複雜的挑戰。現代航空的越來越複雜性需要AI的自動化和實時智能功能，以提高安全性，降低操作

觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。來自Noetix的N2機器人重達40多磅，身高3英尺，據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍，身高約4英尺。比賽中還有許多體型更小的類人機器人參賽，甚至還有一款由風扇驅動前進的機器人。數據解讀這場半程馬拉松吸引了超過12,000名觀眾，但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”，但並非所有機器人均完成了全程比賽。冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱：人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。我們不是在創造人工智能，而是人工推斷 - 處理信息的機器，而人類則

新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現，在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面，每次查看照片時，都會在屏幕底部顯示一行新檢測到的面孔縮略圖。新的面部縮略圖缺少姓名標籤，所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言，此功能除了谷歌相冊已在您的圖像中找到這些人之外，不提供任何其他信息。此功能尚未上線，因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度，或者可能用於其他目的，例如選擇要編輯的個人。我們拭目以待。就目前而言