首頁 >科技週邊 >人工智慧 >具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模式「SAM-E」

具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模式「SAM-E」

王林
王林原創
2024-06-05 16:09:27587瀏覽
具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

當我們拿起機械手錶時,從正面會看到錶盤和指針,從側面會看到錶冠和錶鍊,打開手錶背面會看到複雜的齒輪和機芯。每個視角都提供了不同的訊息,將這些資訊綜合起來才能理解操作對象的整體三維。

想讓機器人在現實生活中學會執行複雜任務,首先需要使機器人理解操作物件和被操作物件的屬性,以及對應的三維操作空間,包括物體位置、形狀、物體之間的遮蔽關係,以及物件與環境的關係等。

其次,機器人需要理解自然語言指令,對未來動作進行長期規劃和高效執行。使機器人具備從環境感知到動作預測的能力是具有挑戰性的。

近期,中國電信人工智慧研究院(TeleAI)李學龍教授團隊聯合上海人工智慧實驗室、清華大學等單位,模擬人「感知—記憶—思維—想像」的認知過程,提出了多視角融合驅動的通用具身操作演算法,為機器人學習複雜操作給出了可行解決方案,論文被國際機器學習大會ICML 2024錄取,為建構通用三維具身策略奠定了基礎。 SAM-E影片介紹如下:具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
近年來,視覺基礎模型對影像的理解能力獲得了快速發展。然而,三維空間的理解仍存在許多挑戰。能否利用視覺大模型幫助具身智能體理解三維操作場景,使其在三維空間中完成各種複雜的操作任務呢?受「感知—記憶—思維—想像」的認知過程啟發,論文提出了全新的基於視覺分割模型Segment Anything(SAM)的具身基座模型SAM-E

首先,SAM- E具有強大可提示(promptable)「感知」能力,將SAM特有的分割結構應用在語言指令的具在身任務中,透過解析文字指令使模型專注於場景中的操作物體。

隨後,設計一個多視角Transformer,將深度特徵、影像特徵與指令特徵進行融合與對齊,實現物件「記憶#」與操作「思考」,以此來理解機械手臂的三維操作空間。

最後,提出了一個全新的動作序列預測網路,對多個時間步的動作序列進行建模,「想像」動作指令,實現了從三維場景感知到具身動作的端到端輸出
具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
  • 論文名稱:SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
  • #論文連結: https://sam-embodied.github.io/static/SAM-E.pdf
  • 專案網址: https://sam-embodied.github.io/

從二維感知到三維感知

在數字在時代的浪潮中,隨著人工智慧技術的快速發展,我們正逐漸邁入一個嶄新的時代——具身智慧時代。賦予智能體身體,使其具備與真實世界直接互動的能力,成為了目前研究的重點方向之一。

要實現這一目標,智能體必須具備強大的三維感知能力,以便能夠準確地理解周圍環境。

傳統的二維感知手段在面對複雜的立體空間時顯得力不從心,如何讓具身智能體透過學習掌握對三維空間的精準建模能力,成為了一個亟待解決的關鍵問題。

現有工作透過正視圖、俯視圖、側視圖等等多個視角的視圖還原和重建三維空間,然而所需的計算資源較為龐大,同時在不同場景中具有的泛化能力有限。

為了解決這個問題,本工作探索一種新的途徑-將視覺大模型的強大泛化能力應用於具身智能體的三維感知領域

SAM-E提出了使用具有強大泛化能力的通用視覺大模型SAM 進行視覺感知,透過在具身場景的高效微調,將其具有的可泛化,可提示(promptable)的特徵提取能力、實例分割能力、複雜場景理解等能力有效遷移到具身場景中。

為了進一步優化SAM基座模型的效能,引入了動作序列網路的概念,不僅能夠捕捉單一動作的預測,還能夠深入理解連續動作之間的內在聯繫,充分挖掘動作間的時序訊息,從而進一步提高基座模型對具身場景的理解與適應能力。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

                                之後符號11. SAM#-#11. SAM

#圖片1.
SAM-E方法

  • #SAM-E方法的核心觀點主要包含兩個面向:
  • #利用SAM的提示驅動結構,建構了一個強大的基座模型,在任務語言指令下擁有出色的泛化效能。透過LoRA微調技術,將模型適配到具身任務中,進一步提升了其效能。
採用
時序動作建模技術
,捕捉動作序列中的時序訊息,更能理解任務的動態變化,並及時調整機器人的策略和執行方式,使機器人保持較高的執行效率。

可提示感知與微調

SAM- E核心在於利用任務指令提示驅動的網路結構,包含一個強大的視覺編碼器和一個輕量的解碼器。

在具身場景中

任務「提示」以自然語言的形式呈現###,作為任務描述指令,視覺編碼器發揮其可提示的感知能力,提取與任務相關的特徵。策略網路則扮演解碼器的角色,基於融合的視覺嵌入和語言指令輸出動作。 ######在訓練階段,SAM-E 使用### LoRA 進行高效微調###,大幅減少了訓練參數,使視覺基礎模型能夠快速適應於具身任務。 ###
多視角三維融合

#SAM-E引入了多視角Transformer網絡,以融合多視角的視覺輸入,深入理解三維空間。其工作分為兩個階段:視角內注意力(View-wise Attention)跨視角注意力(Cross-view Attention)

首先,對多視角特徵分別進行視角內部的注意力處理,然後融合多個視角和語言描述進行混合視角注意力,實現多視角的資訊融合和圖像—語言對齊。

動作序列建模

#在機械手臂執行中,末端執行器的位置和旋轉通常呈現連續且平滑的變化趨勢。這項特性使得相鄰動作之間存在著密切的聯繫和連續性。基於這個觀察,提出了一種新穎的時間平滑假設,旨在充分利用相鄰動作之間的內在關聯,實現對動​​作序列的有效模仿學習

具體來說,SAM-E框架透過序列建模技術捕捉動作序列中的模式和關係,為動作預測提供一種隱性的先驗知識,並對動作的連續性加以約束,從而顯著提升動作預測的準確性和一致性。

在實際應用中,SAM-E 允許在一次動作預測中執行後續的多步驟動作,大大提高了執行效率。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

                              圖3. 連續性動作的位置與旋轉變化 
##                                  圖4.中動作序列中預測網路上

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」


F樣實驗


  • 她實驗實驗
  • ##2實驗實驗

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

#.
##實驗使用具有挑戰性的機械手臂任務集合-RLBench,對多視角觀測下的3D操作任務進行了全面評估,SAM-E模型在多個方面均顯著優於其他傳統方法。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」多重任務場景

下,SAM-E模型顯著提高了任務成功率。 ############在###面對少量樣本遷移至新任務的情況###下,SAM-E憑藉強大的泛化效能和高效的執行效率,有效提升新任務的表現。 ##################################                            圖片# ############
                                图6.三维操作任务示例

此外,动作序列建模显著提高了 SAM-E 的执行效率,同时在策略执行阶段,相比于单个动作,动作序列执行显著降低了模型推理次数,测试中甚至能通过一次模型推理完成相应任务。
具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
                                       图7.任务执行中的模型推理频率

SAM-E在真实机械臂控制中同样有效,使用两个第三人称相机捕获多视角视觉输入,在五个真实任务上具有实时的推理能力。
具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
                                               图8.真实机械臂任务

总结

该工作开创性地提出了一种以多视角融合的基础的通用具身操作算法,利用视觉分割大模型和多视角融合实现具身智能体的三维物理空间感知。

通过高效的参数微调,将预训练视觉模型迁移到具身场景中,能够解决自然语言指令的复杂3D机械臂操作任务。此外,模型可以通过学习少量专家示例,快速泛化到新的任务中,展现出优越的训练效率和动作执行效率。

更重要的是,SAM-E以「感知—记忆—思维—想象」的认知链路,实现了从数据到动作的端到端映射。其意义不仅在于其在具身智能体中的应用,更在于对提升智能体认知能力的启发。

通过模拟人类的感知和决策方式,智能体能够更好地理解和适应复杂的环境,从而在更广泛的领域发挥更大的作用。

团队负责人介绍:
 
李学龙,中国电信CTO、首席科学家,中国电信人工智能研究院(TeleAI)院长。主要关注人工智能、临地安防、图像处理、具身智能。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

以上是具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模式「SAM-E」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn