進入多模態時代,大模型也會操縱無人機了!
當視覺模組捕捉到啟動條件時,大模型這個「大腦」會產生動作指令,然後無人機可以迅速準確地執行
週堯明教授領導的北京航空航天大學智慧無人機團隊的研究人員,提出了一種基於多模態大模型的具身智能體架構
目前,這種結構已經用於控制無人機
這種新的智能體表現如何,又有哪些技術細節呢?
研究團隊利用大模型對多模態資料進行理解,將真實物理世界的照片、聲音、感測器資料等多源資訊融合,以使智能體能夠感知周圍環境,並作出相應的行為操作
同時,團隊提出了一套“Agent as Cerebrum,Controller as Cerebellum”(智能體即大腦,控制器即小腦)的控制架構:
智能體作為大腦這個決策產生器,專注於生成高階的行為。 重寫後的句子:作為大腦的決策生成器,智能體專注於生成高層次的行為
作為小腦的運動控制器,控制器的主要職責是將高層行為(如預期目標點)轉化為低層系統指令(如旋翼轉速)
具體來說,研究團隊認為這項成果主要有三項貢獻。
研究團隊提出了一個新的系統架構,可以應用於實際的機器人。該架構將基於多模態大模型的智慧體具象化為大腦
而機器人運動規劃器與控制器則被具象化為小腦,機器人的感知系統類比為人的眼、耳等資訊收集器,機器人的執行機構類比為人的手等執行器。
△圖1 硬體系統架構
這些節點透過ROS相連,透過ROS中訊息的訂閱與發布或服務的請求與回應實現通信,有別於傳統的端到端的機器人大模型控制。
這個架構讓Agent可以專注於高階指令的產生,對於高階任務具備更強的智慧性,對於實際的執行具備更好的穩健性和可靠性。
需要重寫的內容是:△圖2 軟體系統架構 重寫後的內容:軟體系統架構如圖2所示
在這架構下,作者建構了作為大腦的一種智能體AeroAgent。
此智能體主要包括三個部分:
同時,為了完成一個動作,可能需要多次交互操作以從感測器獲取執行該動作所必需的參數,以確保智能體能夠根據綜合態勢感知和所具備的執行器來穩定輸出具體的行動
需要重寫的內容是:△圖3 AeroAgent模組架構 重寫後的內容:△圖3 AeroAgent 模組架構設計
為了給具身智能體和ROS機器人系統建立橋樑,讓Agent產生的操作能夠正確地、穩定地發送給ROS並被其他節點成功執行,同時讓其他節點所提供的資訊讓LMM能夠讀取與理解,團隊設計了ROSchain——
一個將LLMs/LMMs與ROS連接起來的橋樑
ROSchain透過一套模組和應用程式介面(APIs)簡化了大型模型與機器人感測裝置、執行單元和控制機制的集成,為智能體接入ROS系統提供了一個穩定的中間件。
研究團隊給了三個原因,解釋了為什麼他們選擇了無人機來進行該系統架構的測試和模擬
首先,如今LMMs中所蘊含的web-scale的世界知識,多為第三人稱視角,人型機器人等領域的具身智能是類似於以人類為主體出發的第一人稱視角。
無人機上的相機,尤其是下視相機,更像是第三人稱視角(上帝視角)的有機體智能
另一方面,現階段的LMMs無論是模型部署還是API服務,通常受限於運算資源導致回應有一定的延遲。
無人機的任務規劃由於其可以懸停,具備應對延遲的能力,這對於自動駕駛等領域是一個應用的障礙
這兩點都導致目前技術發展水平下無人機適合作為先驅進行相關理論與應用的驗證。
第二,目前工業無人機領域,如山火救援、農林植保、無人放牧、電力巡檢等,多由飛手與專家配合實際操作,智慧化任務執行具有工業需求。
第三,從未來發展看,多智能體協同合作在物流、建築、工廠等領域具備較為明顯的需求。
而在這個領域中,無人機作為「上帝視角」的具身智能體,適合作為中央節點的領導者進行任務的分配,其他機器人可看作無人機的執行器的一環,所以這項研究也具有未來的發展前景。
團隊使用airgen的模擬器進行了模擬實驗,並同時選擇了DRL等方式作為對照組。以下是實驗結果:
在野外火災搜救的情境中,AeroAgent在標準化分數下獲得了100分的優異成績,平均每步為2.04分
而單純呼叫LLM或基於DRL的智能體都只獲得了29.4分,平均每步0.2,不足AeroAgent的十分之一。
需要重寫的內容是:△4-1號圖,山火救援現場
在著陸任務中,AeroAgent也以97.4的總分和48.7的每步平均分數超過了其他模型。
需要被改寫的內容是:△圖4-2 離岸機坪著陸場景
而在風機巡檢的測試中,AeroAgent直接成為了唯一能完成該任務的模型。
△圖4-3 風力馬達巡檢場景
在導航任務上,AeroAgent 4.44每個步驟的分數分別為DRL和純LLM的40倍和近10倍
#需要重新寫的內容是:△圖4-4 Airgen模擬實驗
團隊也在真實場景中進行了無人機系統的測試,以一個簡單的受困群眾引導實驗為例進行了案例研究。
需要進行改寫的內容是:△ 圖5 引導受困群眾案例實驗
團隊目前正以這項工作為基礎,在某高原犛牛牧場進行無人放牧智慧無人機的實驗,探索其實際應用的可能性,並將以「予智慧以具身」為目標,進行其他機器人/多機器人合作的智能體落地應用探索。
論文網址:https://arxiv.org/abs/2311.15033
#以上是北航團隊提出具身智慧新架構,實現大型無人機的操控的詳細內容。更多資訊請關注PHP中文網其他相關文章!