搜尋
首頁科技週邊人工智慧零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步

物件姿態估計在許多現實世界應用中扮演關鍵角色,如具身智慧、機器人靈巧操作和擴增實境等領域。

在這一領域中,最先受到關注的任務是實例層級6D 姿態估計,其需要關於目標物件的標註資料進行模型訓練,使深度模型具有物體特定性,無法遷移應用到新物體上。後來研究熱點逐步轉向類別層級 6D 姿態估計,用於處理未見過的物體,但要求該物體屬於已知感興趣的類別。

零樣本6D 姿態估計是一種更具泛化性的任務設置,給定任意物體的CAD 模型,旨在在場景中檢測出此目標物體,並估計其6D 姿態。儘管其具有重要意義,這種零樣本的任務設定在物體檢測和姿態估計方面都面臨著巨大的挑戰。

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步

圖1.零樣本6D 物件姿態估計任務示意圖

最近,分割一切模型SAM [1] 備受關注,其優異的零樣本分割能力令人矚目。 SAM 透過各種提示,如像素點、包圍框、文字和遮罩等,實現高精度的分割,這也為零樣本 6D 物體姿態估計任務提供了可靠的支撐, 展現了其前景的潛力。

因此,研究人員從跨維智能、香港中文大學(深圳)、華南理工大學聯合提出了一種創新的零樣本6D物體姿態估計框架SAM-6D。這項研究已被CVPR 2024收錄。

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步


#
  • 論文連結: https://arxiv.org/pdf/2311.15707.pdf
  • 程式碼連結: https ://github.com/JiehongLin/SAM-6D

#SAM-6D 透過兩個步驟來實現零樣本6D 物件姿態估計,包括實例分割和姿態估計。相應地,給定任意目標物體,SAM-6D 利用兩個專用子網絡,即實例分割模型(ISM)和姿態估計模型(PEM),來從RGB-D 場景圖像中實現目標;其中,ISM 將SAM 作為一個優秀的起點,結合精心設計的物體匹配分數來實現對任意物體的實例分割,PEM 透過局部到局部的兩階段點集匹配過程來解決物體姿態問題。 SAM-6D 的總覽如圖 2 所示。

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步

圖2. SAM-6D 總覽圖

整體來說,SAM-6D 的技術貢獻可概括如下:

  • SAM-6D 是一個創新的零樣本6D 姿態估計框架,透過給定任意物件的CAD 模型,實現了從RGB-D 影像中對目標物體進行實例分割和姿態估計,並在BOP [2] 的七個核心資料集上表現優異。
  • SAM-6D 利用分割一切模型的零樣本分割能力,產生了所有可能的候選對象,並設計了一個新穎的物體匹配分數,以識別與目標物體對應的候選對象。
  • SAM-6D 將姿態估計視為一個局部到局部的點集匹配問題,採用了一個簡單但有效的Background Token 設計,並提出了一個針對任意物體的兩階段點集匹配模型;第一階段實現粗糙的點集匹配以獲得初始物體姿態,第二階段使用新穎的稀疏到稠密點集變換器以進行精細點集匹配,從而對姿態進一步優化。

實例分割模型(ISM)

#SAM-6D 使用實例分割模型(ISM)來偵測並分割出任意物體的掩膜。

給定一個由 RGB 影像表徵的雜亂場景,ISM 利用分割一切模型(SAM)的零樣本遷移能力產生所有可能的候選對象。對於每個候選對象,ISM 為其計算一個物體匹配分數,以估計其與目標物體在語義、外觀和幾何方面的匹配程度。最後透過簡單設定一個匹配閾值,即可辨識出與目標物體所匹配的實例。

物件匹配分數的計算透過三個匹配項的加權求和得到:

#

語義匹配項 —— 針對目標物體,ISM 渲染了多個視角下的物體模板,並利用DINOv2 [3] 預先訓練的ViT 模型提取候選對象和物體模板的語意特徵,計算它們之間的相關性分數。將前 K 個最高的分數進行平均即可得到語意配對項分數,而最高相關性分數對應的物件範本視為最匹配範本。

外觀匹配項 —— 對於最匹配模板,利用ViT 模型提取圖像塊特徵,併計算其與候選對象的塊特徵之間的相關性,從而獲得外觀匹配項分數,用於區分語義相似但外觀不同的物體。

幾何匹配項 — 鑑於不同物件的形狀和大小差異等因素,ISM 也設計了幾何匹配項分數。最匹配模板對應的旋轉與候選對象點雲的平均值可以給出粗略的物體姿態,利用該姿態對物體 CAD 模型進行剛性變換並投影可以得到邊界框。計算該邊界框與候選邊界框的交並比(IoU)則可得幾何匹配項分數。

姿態估計模型(PEM)

#對於每個與目標物體匹配的候選對象,SAM-6D 利用姿態估計模型(PEM )來預測其相對於物體CAD 模型的6D 姿態。

將分割的候選物件和物件CAD 模型的取樣點集分別表示為零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步 零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步,其中N_m和N_o 表示它們點的數量;同時,將這兩個點集的特徵表示為零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步,C 表示特徵的通道數。 PEM 的目標是得到一個分配矩陣,用來表示從P_m 到P_o 之間的局部到局部對應關係;由於遮蔽的原因,P_o 只部分與匹配P_m,而由於分割不準確性和感測器噪聲,P_m 也只部分與匹配P_o。

為了解決兩個點集非重疊點的分配問題,ISM 為它們分別配備了Background Token,記為 零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步 和 零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步#,則可以基於特徵相似性有效地建立局部到局部對應關係。具體來說,首先可以計算注意力矩陣如下:

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步

接著可得分配矩陣

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步## 零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步和 零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步 分別表示沿著行和列的softmax 操作,零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步 表示一個常數。  

中的每一行的值(除了首行),表示點集P_m 中每個點P_m 與背景及P_o 中點的匹配機率,透過定位最大分數的索引,則可以找到與P_m 相符的點(包括背景)。

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步一旦計算獲得 

 ,則可以聚集所有符合點對{(P_m,P_o)} 以及它們的配對分數,最終利用加權SVD 計算物體姿態。

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步

圖 3. SAM-6D 中姿態估計模型 (PEM) 的示意圖#######

利用上述基於Background Token 的策略,PEM 中設計了兩個點集匹配階段,其模型結構如圖3 所示,包含了特徵提取、粗略點集匹配和精細點集匹配三個模組。

粗糙點集匹配模組實現稀疏對應關係,以計算初始物體姿態,隨後利用該姿態來對候選對象的點集進行變換,從而實現位置編碼的學習。

精細點集匹配模組結合候選物件和目標物件的取樣點集的位置編碼,從而注入第一階段的粗糙對應關係,並進一步建立密集對應關係以獲得更多精確的物體姿態。為了在這一階段有效地學習密集交互,PEM 引入了一個新穎的稀疏到稠密點集變換器,它實現在密集特徵的稀疏版本上的交互,並利用Linear Transformer [5] 將增強後的稀疏特徵擴散回密集特徵。

實驗結果

對於SAM-6D 的兩個子模型,實例分割模型(ISM)是基於SAM 建構而成的,無需進行網路的重新訓練和finetune,而姿態估計模型(PEM)則利用MegaPose [4] 提供的大規模ShapeNet-Objects 和Google-Scanned-Objects 合成資料集進行訓練。

為驗證其零樣本能力,SAM-6D 在BOP [2] 的七個核心資料集上進行了測試,包括了LM-O,T-LESS,TUD- L,IC-BIN,ITODD,HB 和YCB-V。表 1 和表 2 分別展示了不同方法在這七個資料集上的實例分割和姿勢估計結果的比較。相較於其他方法,SAM-6D 在兩種方法上的表現均十分優異,充分展現其強大的泛化能力。

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步

表1. 不同方法在BOP 七個核心資料集上的實例分割結果比較

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步

表2. 不同方法在BOP 七個核心資料集上的姿態估計結果比較

圖4 展示了SAM-6D 在BOP 七個資料集上的檢測分割以及6D 姿態估計的可視化結果,其中(a) 和(b) 分別為測試的RGB 影像和深度圖,(c) 為給定的目標物體,而(d) 和(e ) 則分別為偵測分割和6D 姿態的可視化結果。

零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步

#

圖 4. SAM-6D 在 BOP 的七個核心資料集上的視覺化結果。

關於 SAM-6D 的更多實作細節, 歡迎閱讀原文.

以上是零樣本6D物體姿勢估計框架SAM-6D,向具身智慧更進一步的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用LM Studio在本地運行LLM? - 分析Vidhya如何使用LM Studio在本地運行LLM? - 分析VidhyaApr 19, 2025 am 11:38 AM

輕鬆在家運行大型語言模型:LM Studio 使用指南 近年來,軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM,涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇,本指南都將提供寶貴的見解和實用技巧。讓我們開始吧! 概述 了解在本地運行 LLM 的基本要求。 在您的電腦上設置 LM Studi

蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來Apr 19, 2025 am 11:35 AM

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息

迅速工程中的情感鍊是什麼? - 分析Vidhya迅速工程中的情感鍊是什麼? - 分析VidhyaApr 19, 2025 am 11:33 AM

介紹 人工智能(AI)不僅要理解單詞,而且要理解情感,從而以人的觸感做出反應。 這種複雜的互動對於AI和自然語言處理的快速前進的領域至關重要。 Th

12個最佳數據科學工作流程的AI工具-Analytics Vidhya12個最佳數據科學工作流程的AI工具-Analytics VidhyaApr 19, 2025 am 11:31 AM

介紹 在當今以數據為中心的世界中,利用先進的AI技術對於尋求競爭優勢和提高效率的企業至關重要。 一系列強大的工具使數據科學家,分析師和開發人員都能構建,Depl

AV字節:OpenAI的GPT-4O Mini和其他AI創新AV字節:OpenAI的GPT-4O Mini和其他AI創新Apr 19, 2025 am 11:30 AM

本週的AI景觀爆炸了,來自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行業巨頭的開創性發行。 這些新型號有望提高功率,負擔能力和可訪問性,這在TR的進步中推動了

報告發現,困惑的Android應用程序有安全缺陷。報告發現,困惑的Android應用程序有安全缺陷。Apr 19, 2025 am 11:24 AM

但是,該公司的Android應用不僅提供搜索功能,而且還充當AI助手,並充滿了許多安全問題,可以將其用戶暴露於數據盜用,帳戶收購和惡意攻擊中

每個人都擅長使用AI:關於氛圍編碼的想法每個人都擅長使用AI:關於氛圍編碼的想法Apr 19, 2025 am 11:17 AM

您可以查看會議和貿易展覽中正在發生的事情。您可以詢問工程師在做什麼,或諮詢首席執行官。 您看的任何地方,事情都以驚人的速度發生變化。 工程師和非工程師 有什麼區別

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya火箭發射模擬和分析使用Rocketpy -Analytics VidhyaApr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。