搜尋
首頁科技週邊人工智慧CVPR 2024 | 零樣本6D物體姿態估計框架SAM-6D,向具身智慧更進一步

在許多實際應用中,物件姿態估計扮演著關鍵角色,例如在具身智慧、機器人操作和擴增實境等領域。

在這一領域中,最先受到關注的任務是實例層級6D 姿態估計,其需要關於目標物體的帶標註資料進行模型訓練,使深度模型具有物件特定性,無法遷移應用到新物體上。後來研究熱點逐步轉向類別層級 6D 姿態估計,用於處理未見過的物體,但要求該物體屬於已知感興趣的類別。

零樣本6D 姿態估計是一種更泛化的任務設置,給定任意物體的CAD 模型,旨在在場景中檢測出該目標物體,並估計其6D 姿態。儘管其具有重要意義,這種零樣本的任務設定在物體檢測和姿態估計方面都面臨著巨大的挑戰。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                               圖1. 零樣本中6D 物件上估計任務時說明為原則[1] 備受關注,其優異的零樣本分割能力令人矚目。 SAM 透過各種提示,如像素點、包圍框、文字和遮罩等,實現高精度的分割,這也為零樣本 6D 物體姿態估計任務提供了可靠的支撐, 展現了其前景的潛力。 因此,一項新的零樣本 6D 物體姿態估計框架 SAM-6D 被跨維智能、香港中文大學(深圳)、華南理工大學的研究人員提出。這項研究成果已經受到 CVPR 2024 的認可。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步論文連結: https://arxiv.org/pdf/2311.15707.pdf

  • #程式碼連結: https://github.com/JiehongLin/SAM-6D

  • SAM-6D 透過兩個步驟來實現零樣本6D 物件姿態估計,包括實例分割和姿態估計。相應地,給定任意目標物體,SAM-6D 利用兩個專用子網絡,即

    實例分割模型(ISM)和姿態估計模型(PEM)
  • ,來從RGB-D 場景圖像中實現目標;其中,ISM 將SAM 作為一個優秀的起點,結合精心設計的物體匹配分數來實現對任意物體的實例分割,PEM 透過局部到局部的兩階段點集匹配過程來解決物體姿態問題。 SAM-6D 的總覽如圖 2 所示。

##卷

整體來說,SAM-6D 的技術貢獻可概括如下:

  • SAM-6D 是一個創新的零樣本6D 姿態估計框架,透過給定任意物體的CAD模型,實現了從RGB-D 影像中對目標物件進行實例分割和姿態估計,並在BOP [2] 的七個核心資料集上表現優異。

  • SAM-6D 利用分割一切模型的零樣本分割能力,產生了所有可能的候選對象,並設計了一個新穎的物體匹配分數,以識別與目標物體對應的候選對象。

  • SAM-6D 將姿態估計視為一個局部到局部的點集匹配問題,採用了一個簡單但有效的Background Token 設計,並提出了一個針對任意物體的兩階段點集匹配模型;第一階段實現粗糙的點集匹配以獲得初始物體姿態,第二階段使用新穎的稀疏到稠密點集變換器以進行精細點集匹配,從而對姿態進一步優化。

實例分割模型(ISM)

#SAM-6D 使用實例分割模型(ISM)來偵測並分割出任意物件的遮罩。

給定一個由 RGB 影像表徵的雜亂場景,ISM 利用分割一切模型(SAM)的零樣本遷移能力產生所有可能的候選對象。對於每個候選對象,ISM 為其計算一個物體匹配分數,以估計其與目標物體在語義、外觀和幾何方面的匹配程度。最後透過簡單設定一個匹配閾值,即可辨識出與目標物體所匹配的實例。

物件匹配分數的計算透過三個匹配項的加權求和得到:

語義匹配項 —— 針對目標物體,ISM 渲染了多個視角下的物體模板,並利用DINOv2 [3] 預先訓練的ViT 模型提取候選對象和物體模板的語意特徵,計算它們之間的相關性分數。將前 K 個最高的分數進行平均即可得到語意配對項分數,而最高相關性分數對應的物件範本視為最匹配範本。

外觀匹配項 —— 對於最匹配模板,利用ViT 模型提取圖像塊特徵,併計算其與候選對象的塊特徵之間的相關性,從而獲得外觀匹配項分數,用於區分語義相似但外觀不同的物體。

幾何匹配項 —— 鑑於不同物體的形狀和大小差異等因素,ISM 也設計了幾何匹配項分數。最匹配模板對應的旋轉與候選對象點雲的平均值可以給出粗略的物體姿態,利用該姿態對物體 CAD 模型進行剛性變換並投影可以得到邊界框。計算該邊界框與候選邊界框的交並比(IoU)則可得幾何匹配項分數。

姿態估計模型(PEM)

對於每個與目標物體匹配的候選對象,SAM-6D 利用姿態估計模型(PEM)來預測其相對於物體CAD 模型的6D 姿態。 

將分割的候選對象和物體CAD 模型的取樣點集分別表示為CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步,其中N_m 和N_o 表示它們點的數量;同時,將這兩個點集的特徵表示為CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步,C 表示特徵的通道數。 PEM 的目標是得到一個分配矩陣,用來表示從P_m 到P_o 之間的局部到局部對應關係;由於遮蔽的原因,P_o 只部分與匹配P_m,而由於分割不準確性和感測器噪聲,P_m 也只部分與匹配P_o。

為了解決兩個點集非重疊點的分配問題,ISM 為它們分別配備了Background Token,記為CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步,則可以基於特徵相似性有效地建立局部到局部對應關係。具體來說,首先可以計算注意力矩陣如下:

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

接著可得分配矩陣

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 分別表示沿著行和列的 softmax 操作,CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 表示一個常數。 CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 中的每一行的值(除了首行),表示點集P_m 中每個點P_m 與背景及P_o 中點的匹配機率,透過定位最大分數的索引,則可以找到與P_m 匹配的點(包括背景)。

一旦計算獲得 CVPR 2024 | 零樣本6D物體姿態估計框架SAM-6D,向具身智慧更進一步 ,則可以聚集所有匹配點對 {(P_m,P_o)} 以及它們的匹配分數,最終利用加權 SVD 計算物體姿態。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                                 圖上3. SAM-6D 中姿勢下姿勢符號(PEM)      圖3. SAM-6D 中姿態估計模型(PEM) 的估計模型示意圖13.基於Background Token 的策略,PEM 中設計了兩個點集匹配階段,其模型結構如圖3 所示,包含了特徵提取、粗略點集匹配和精細點集匹配

三個模組。

粗糙點集匹配模組實現稀疏對應關係,以計算初始物體姿態,隨後利用該姿態來對候選對象的點集進行變換,從而實現位置編碼的學習。

精細點集匹配模組結合候選對象和目標物體的採樣點集的位置編碼,從而注入第一階段的粗糙對應關係,並進一步建立密集對應關係以獲得更精確的物體姿態。為了在這一階段有效地學習密集交互,PEM 引入了一個新穎的稀疏到稠密點集變換器,它實現在密集特徵的稀疏版本上的交互,並利用Linear Transformer [5] 將增強後的稀疏特徵擴散回密集特徵。

實驗結果

#

對於SAM-6D 的兩個子模型,實例分割模型(ISM)是基於SAM 建構而成的,無需進行網路的重新訓練和finetune,而姿態估計模型(PEM)則利用MegaPose [4] 提供的大規模ShapeNet-Objects 和Google-Scanned-Objects 合成資料集進行訓練。

為驗證其零樣本能力,SAM-6D 在BOP [2] 的七個核心資料集上進行了測試,包括了LM-O,T-LESS,TUD-L,IC-BIN, ITODD,HB 和YCB-V。表 1 和表 2 分別展示了不同方法在這七個資料集上的實例分割和姿勢估計結果的比較。相較於其他方法,SAM-6D 在兩種方法上的表現均十分優異,充分展現其強大的泛化能力。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                               表1.中使用中的範例例

222222222》2CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

#                              我SAM-6D 在BOP 七個資料集上的檢測分割以及6D 姿態估計的可視化結果,其中(a) 和(b) 分別為測試的RGB 影像和深度圖,(c) 為給定的目標物體,而(d) 和(e) 則分別為偵測分割和6D 姿態的可視化結果。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                                   之後中使用中七個 BOP 的核心資料集上的七個視覺結果。 關於SAM-6D 的更多實作細節, 歡迎閱讀原文.

參考文獻:

[1] Alexander Kirillov et. al.,「Segment anything.」

[2] Martin Sundermeyer et. al.,“Bop challenge 2022 on detection, segmentation and pose estimation of specific rigid objects.”

##[3] 馬克斯: Learning robust visual features without supervision.”

[4] Yann Labbe et. al.,“Megapose: 6d pose estimation of novel objects via render & compare .”

[5] Angelos Katharopoulos et. al., “Transformers are rnns: Fast autoregressive

#transformers with linear attention.」

以上是CVPR 2024 | 零樣本6D物體姿態估計框架SAM-6D,向具身智慧更進一步的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
微軟工作趨勢指數2025顯示工作場所容量應變微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

AI可以理解嗎?中國房間的論點說不,但是對嗎?AI可以理解嗎?中國房間的論點說不,但是對嗎?Apr 24, 2025 am 11:18 AM

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDRGoogle照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器