首頁 >科技週邊 >人工智慧 >北航團隊提出具身智慧新架構，實現大型無人機的操控

北航團隊提出具身智慧新架構，實現大型無人機的操控

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載: 2023-12-15 10:49:101504瀏覽

進入多模態時代，大模型也會操縱無人機了！

當視覺模組捕捉到啟動條件時，大模型這個「大腦」會產生動作指令，然後無人機可以迅速準確地執行

週堯明教授領導的北京航空航天大學智慧無人機團隊的研究人員，提出了一種基於多模態大模型的具身智能體架構

目前，這種結構已經用於控制無人機

北航團隊提出具身智慧新架構，實現大型無人機的操控

這種新的智能體表現如何，又有哪些技術細節呢？

「智能體即大腦」

研究團隊利用大模型對多模態資料進行理解，將真實物理世界的照片、聲音、感測器資料等多源資訊融合，以使智能體能夠感知周圍環境，並作出相應的行為操作

同時，團隊提出了一套“Agent as Cerebrum，Controller as Cerebellum”（智能體即大腦，控制器即小腦）的控制架構：

智能體作為大腦這個決策產生器，專注於生成高階的行為。重寫後的句子：作為大腦的決策生成器，智能體專注於生成高層次的行為

作為小腦的運動控制器，控制器的主要職責是將高層行為（如預期目標點）轉化為低層系統指令（如旋翼轉速）

具體來說，研究團隊認為這項成果主要有三項貢獻。

應用於實際的新系統架構

研究團隊提出了一個新的系統架構，可以應用於實際的機器人。該架構將基於多模態大模型的智慧體具象化為大腦

而機器人運動規劃器與控制器則被具象化為小腦，機器人的感知系統類比為人的眼、耳等資訊收集器，機器人的執行機構類比為人的手等執行器。

北航團隊提出具身智慧新架構，實現大型無人機的操控

△圖1 硬體系統架構

這些節點透過ROS相連，透過ROS中訊息的訂閱與發布或服務的請求與回應實現通信，有別於傳統的端到端的機器人大模型控制。

這個架構讓Agent可以專注於高階指令的產生，對於高階任務具備更強的智慧性，對於實際的執行具備更好的穩健性和可靠性。

北航團隊提出具身智慧新架構，實現大型無人機的操控

需要重寫的內容是：△圖2 軟體系統架構重寫後的內容：軟體系統架構如圖2所示

新型智能體

在這架構下，作者建構了作為大腦的一種智能體AeroAgent。

此智能體主要包括三個部分：

一個自動規劃產生模組，具有多模態感知監控能力，同時擅長進行待機模式下的緊急突發事件處理。
一個多模態資料記憶模組，可以用於多模態記憶檢索和反思，為智能體賦予少樣本學習能力。
一個具身智能動作模組，可以建立具身智能體與ROS上其他模組進行穩定控制的橋樑，這一模組提供了對於ROS上其他節點以操作為橋樑進行訪問的能力。

同時，為了完成一個動作，可能需要多次交互操作以從感測器獲取執行該動作所必需的參數，以確保智能體能夠根據綜合態勢感知和所具備的執行器來穩定輸出具體的行動

北航團隊提出具身智慧新架構，實現大型無人機的操控

需要重寫的內容是：△圖3 AeroAgent模組架構重寫後的內容：△圖3 AeroAgent 模組架構設計

連接大模型和ROS的橋樑

為了給具身智能體和ROS機器人系統建立橋樑，讓Agent產生的操作能夠正確地、穩定地發送給ROS並被其他節點成功執行，同時讓其他節點所提供的資訊讓LMM能夠讀取與理解，團隊設計了ROSchain——

一個將LLMs/LMMs與ROS連接起來的橋樑

ROSchain透過一套模組和應用程式介面（APIs）簡化了大型模型與機器人感測裝置、執行單元和控制機制的集成，為智能體接入ROS系統提供了一個穩定的中間件。

為什麼選擇無人機

研究團隊給了三個原因，解釋了為什麼他們選擇了無人機來進行該系統架構的測試和模擬

首先，如今LMMs中所蘊含的web-scale的世界知識，多為第三人稱視角，人型機器人等領域的具身智能是類似於以人類為主體出發的第一人稱視角。

無人機上的相機，尤其是下視相機，更像是第三人稱視角（上帝視角）的有機體智能

另一方面，現階段的LMMs無論是模型部署還是API服務，通常受限於運算資源導致回應有一定的延遲。

無人機的任務規劃由於其可以懸停，具備應對延遲的能力，這對於自動駕駛等領域是一個應用的障礙

這兩點都導致目前技術發展水平下無人機適合作為先驅進行相關理論與應用的驗證。

第二，目前工業無人機領域，如山火救援、農林植保、無人放牧、電力巡檢等，多由飛手與專家配合實際操作，智慧化任務執行具有工業需求。

第三，從未來發展看，多智能體協同合作在物流、建築、工廠等領域具備較為明顯的需求。

而在這個領域中，無人機作為「上帝視角」的具身智能體，適合作為中央節點的領導者進行任務的分配，其他機器人可看作無人機的執行器的一環，所以這項研究也具有未來的發展前景。

團隊使用airgen的模擬器進行了模擬實驗，並同時選擇了DRL等方式作為對照組。以下是實驗結果：

北航團隊提出具身智慧新架構，實現大型無人機的操控

在野外火災搜救的情境中，AeroAgent在標準化分數下獲得了100分的優異成績，平均每步為2.04分

而單純呼叫LLM或基於DRL的智能體都只獲得了29.4分，平均每步0.2，不足AeroAgent的十分之一。

北航團隊提出具身智慧新架構，實現大型無人機的操控

需要重寫的內容是：△4-1號圖，山火救援現場

在著陸任務中，AeroAgent也以97.4的總分和48.7的每步平均分數超過了其他模型。

北航團隊提出具身智慧新架構，實現大型無人機的操控

需要被改寫的內容是：△圖4-2 離岸機坪著陸場景

而在風機巡檢的測試中，AeroAgent直接成為了唯一能完成該任務的模型。

北航團隊提出具身智慧新架構，實現大型無人機的操控

△圖4-3 風力馬達巡檢場景

在導航任務上，AeroAgent 4.44每個步驟的分數分別為DRL和純LLM的40倍和近10倍

北航團隊提出具身智慧新架構，實現大型無人機的操控

#需要重新寫的內容是：△圖4-4 Airgen模擬實驗

團隊也在真實場景中進行了無人機系統的測試，以一個簡單的受困群眾引導實驗為例進行了案例研究。

北航團隊提出具身智慧新架構，實現大型無人機的操控

需要進行改寫的內容是：△ 圖5 引導受困群眾案例實驗

團隊目前正以這項工作為基礎，在某高原犛牛牧場進行無人放牧智慧無人機的實驗，探索其實際應用的可能性，並將以「予智慧以具身」為目標，進行其他機器人/多機器人合作的智能體落地應用探索。

論文網址：https://arxiv.org/abs/2311.15033

以上是北航團隊提出具身智慧新架構，實現大型無人機的操控的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构中间件接口事件 https 传感器系统架构

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：首次超過70% mAP！ GeMap：局部高精地圖SOTA再次刷新下一篇：首次超過70% mAP！ GeMap：局部高精地圖SOTA再次刷新

看更多