CVPR 2024 | ゼロサンプル 6D オブジェクト姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく-AI-php.cn

ホームページ

テクノロジー周辺機器

CVPR 2024 | ゼロサンプル 6D オブジェクト姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

王林

Mar 25, 2024 pm 06:56 PM

プロジェクトsam-6d

多くの実際のアプリケーションでは、物体の姿勢推定は、身体化された知能、ロボット操作、拡張現実などの分野で重要な役割を果たします。

この分野で注目すべき最初のタスクは インスタンスレベルの 6D 姿勢推定です。これには、深度モデルをオブジェクト固有のプロパティにするためのモデルトレーニング用のターゲットオブジェクトに関する注釈付きデータが必要です。新しいオブジェクトに転送することはできません。その後、研究の焦点は徐々に カテゴリレベルの 6D 姿勢推定 に移りました。これは目に見えないオブジェクトを処理するために使用されますが、そのオブジェクトが既知の関心のあるカテゴリに属している必要があります。

および ゼロサンプル 6D ポーズ推定 は、より一般化されたタスク設定であり、任意のオブジェクトの CAD モデルが与えられた場合、シーン内のターゲットオブジェクトを検出し、その 6D ポーズを推定することを目的としています。その重要性にもかかわらず、このゼロショットタスク設定は、物体検出と姿勢推定の両方において大きな課題に直面しています。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

^{[ 1] が注目を集めており、その優れたゼロサンプルセグメンテーション能力が目を引きます。 SAM は、ピクセル、バウンディングボックス、テキスト、マスクなどのさまざまなキューを通じて高精度のセグメンテーションを実現します。これにより、ゼロサンプルの 6D オブジェクトの姿勢推定タスクに対する信頼性の高いサポートも提供され、その有望な可能性が実証されます。} したがって、新しいゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D が、Cross-Dimensional Intelligence、香港中文大学 (深セン)、および華南理工大学の研究者によって提案されました。この研究は CVPR 2024 によって認められました。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步論文リンク: https://arxiv.org/pdf/2311.15707.pdf

コードリンク: https://github.com/JiehongLin/SAM-6D
SAM-6D は、インスタンスセグメンテーションと姿勢推定を含む 2 つのステップを通じて、ゼロサンプル 6D オブジェクトの姿勢推定を実装します。したがって、任意のターゲットオブジェクトが与えられると、SAM-6D は 2 つの専用サブネットワーク、つまり
インスタンスセグメンテーションモデル (ISM) とポーズ推定モデル (PEM)

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

全体として、SAM-6D の技術的貢献は次のように要約できます。

SAM-6D は、あらゆるオブジェクトの CAD を提供する革新的なゼロサンプル 6D 姿勢推定フレームワークです。このモデルは、RGB-D 画像からのターゲットオブジェクトのインスタンスセグメンテーションと姿勢推定を実装しており、BOP [2] の 7 つのコアデータセットに対して優れたパフォーマンスを発揮します。
SAM-6D は、すべてのセグメンテーションモデルのゼロショットセグメンテーション機能を活用して、考えられるすべての候補オブジェクトを生成し、ターゲットオブジェクトに対応するオブジェクトを識別するための新しいオブジェクトマッチングスコアを設計します。候補者。
SAM-6D は、姿勢推定をローカル間の点集合のマッチング問題と見なし、シンプルだが効果的なバックグラウンドトークン設計を採用し、任意のオブジェクトに対する 2 次元アルゴリズムを提案します。ステージ点セットマッチングモデル。第 1 ステージでは粗い点セットマッチングを実装して初期オブジェクトポーズを取得し、第 2 ステージでは新しい疎点セットから高密度点セットへの変換を使用して細かい点セットマッチングを実行し、ポーズをさらに最適化します。

インスタンスセグメンテーションモデル (ISM)

SAM-6D は、インスタンスセグメンテーションモデル (ISM) を使用して、任意のオブジェクトのマスクを検出してセグメント化します。

RGB イメージで表される乱雑なシーンを考慮して、ISM はセグメンテーションエブリシングモデル (SAM) のゼロショット転送機能を利用して、考えられるすべての候補を生成します。 ISM は候補オブジェクトごとにオブジェクト一致スコアを計算し、セマンティクス、外観、ジオメトリの観点からターゲットオブジェクトとどの程度一致しているかを推定します。最後に、一致しきい値を設定するだけで、ターゲットオブジェクトに一致するインスタンスを識別できます。

オブジェクト一致スコアの計算は、3 つの一致項目の加重合計によって取得されます。

セマンティック一致項目 - ターゲットオブジェクトに対して、ISM は複数のビューをレンダリングします。オブジェクトテンプレートを使用し、DINOv2 [3] の事前トレーニング済み ViT モデルを使用して、候補オブジェクトとオブジェクトテンプレートの意味論的特徴を抽出し、それらの間の相関スコアを計算します。意味的一致スコアは、上位 K 個の最高スコアを平均することによって取得され、最も高い相関スコアに対応するオブジェクトテンプレートが最も一致するテンプレートとみなされます。

外観一致項目 - 最も一致するテンプレートについては、ViT モデルを使用して画像ブロック特徴を抽出し、それと候補オブジェクトのブロック特徴の間の相関を計算して、外観一致を取得します。 item スコア。意味的には似ているが視覚的に異なるオブジェクトを区別するために使用されます。

幾何学的一致 - ISM は、さまざまなオブジェクトの形状やサイズの違いなどの要因を考慮して、幾何学的一致スコアも設計しました。最もよく一致するテンプレートと候補オブジェクトの点群に対応する回転の平均により、大まかなオブジェクトのポーズが得られ、このポーズを使用してオブジェクト CAD モデルを剛体変換および投影することにより、バウンディングボックスを取得できます。境界ボックスと候補境界ボックスの間の交差対和集合 (IoU) 比を計算すると、幾何学的マッチングスコアを取得できます。

姿勢推定モデル (PEM)

ターゲットオブジェクトと一致する各候補オブジェクトについて、SAM-6D は姿勢推定モデル (PEM) を利用して相対的な 6D を予測します。オブジェクトの CAD モデルのポーズ。

セグメント化された候補オブジェクトとオブジェクト CAD モデルのサンプリング点セットはそれぞれ CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步とで表され、N_m と N_o はそれらの点の数を表し、同時にこれら 2 つの点セットの特性を表しますはおよびで表され、C は機能のチャネル数を表します。 PEM の目的は、P_m から P_o までのローカル間対応を表す割り当て行列を取得することです。オクルージョンにより、P_o は P_m と部分的にのみ一致し、セグメンテーションの不正確さとセンサーノイズにより、P_m は部分的にのみ一致します。部分的 AND 一致ぽ。

2 つの点セット間で重複しない点を割り当てる問題を解決するために、ISM は CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步とのマークが付いたバックグラウンドトークンをそれらの点セットに装備します。これにより、ローカル間の関係をベースにして効果的に確立できます。機能の類似性について。具体的には、最初に注目行列を次のように計算できます。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

次に、分布行列を取得できます

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步とはそれぞれ行と列に沿ったソフトマックス演算を表し、は定数を表します。の各行 (最初の行を除く) の値は、点集合 P_m 内の各点 P_m と背景および P_o の中点との一致確率を表します。最大スコアのインデックスを見つけることで、点集合 P_m と一致する点が決定されます。を見つけることができます（背景を含む）。

計算が CVPR 2024 | ゼロサンプル 6D オブジェクト姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくになると、すべての一致点ペア {(P_m,P_o)} とその一致スコアが収集され、最後に重み付き SVD を使用してオブジェクトの姿勢が計算されます。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

^{バックグラウンドトークンの戦略に基づいて、2 つの点セットマッチングステージが PEM で設計されています。モデル構造は図 3 に示されており、3 つのステージが含まれていますモジュール:}特徴抽出、大まかな点セットマッチング、および詳細な点セットマッチング。

ラフ点セットマッチングモジュールは、スパース対応を実装してオブジェクトの初期姿勢を計算し、その姿勢を使用して候補オブジェクトの点セットを変換し、位置コーディング学習を実現します。詳細点セットマッチングモジュールは、候補オブジェクトとターゲットオブジェクトのサンプル点セットの位置エンコーディングを組み合わせることで、第 1 段階で大まかな対応関係を注入し、さらに密な対応関係を確立して、より正確な対応関係を取得します。オブジェクトのポーズ。この段階で密な相互作用を効果的に学習するために、PEM は新しい疎から密への点集合変換器を導入します。これは、密な特徴の疎なバージョンで相互作用を実装し、線形変換器 [5] を利用して強化された疎な特徴を拡散に変換して密な特徴に戻します。特徴。＃＃＃＃＃＃＃＃＃実験結果＃＃＃＃＃＃

SAM-6D の 2 つのサブモデルの場合、インスタンスセグメンテーションモデル (ISM) はネットワークの再トレーニングや微調整を必要とせずに SAM に基づいて構築されますが、姿勢推定モデル (PEM) は MegaPose によって提供されます [4]トレーニング用の大規模な ShapeNet-Objects および Google-Scanned-Objects 合成データセット。

ゼロサンプル機能を検証するために、SAM-6D は、LM-O、T-LESS、TUD-L、IC-BIN、ITODD、HB を含む BOP [2] の 7 つのコアデータセットでテストされました。そしてYCB-V。表 1 と表 2 は、これら 7 つのデータセットに対するさまざまな方法によるインスタンスのセグメンテーションと姿勢推定の結果の比較をそれぞれ示しています。他の手法と比較して、SAM-6D は両方の手法で非常に優れたパフォーマンスを発揮し、その強力な汎化能力を十分に実証しています。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

＃表2.さまざまな方法の態度推定結果の比較BOP の 7 つのコアデータセットでの CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

#図 4 は、7 つの BOP データセットでの SAM-6D の検出セグメンテーションと 6D 姿勢推定の視覚化結果を示しています。ここで (a) と (b)はそれぞれテスト RGB 画像と深度マップ、(c) は指定されたターゲットオブジェクト、(d) と (e) はそれぞれ検出セグメンテーションと 6D ポーズの視覚化結果です。

図 4. BOP の 7 つのコアデータセットに対する SAM-6D の視覚化結果。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

#SAM-6D の実装の詳細については、オリジナルの論文をお読みください。

参考資料:

[1] Alexander Kirillov 他、「Segment anything」

^{[2] Martin Sundermeyer 他。 al.、「特定の剛体オブジェクトの検出、セグメンテーション、姿勢推定に関する Bop チャレンジ 2022」}

^{[3] Maxime Oquab et. al.、「Dinov2 : 監視なしで堅牢な視覚機能を学習します。"}

^{[4] Yann Labbe et. al.、「Megapose: レンダリングと比較による新規オブジェクトの 6D 姿勢推定」 .”}

^{[5] Angelos Katharopoulos et. al.、「トランスフォーマーは rnns: 高速自己回帰}

」 ^{##リニアな注目を集めるトランスフォーマー。」}

以上がCVPR 2024 | ゼロサンプル 6D オブジェクト姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

Rohan Rao＆＃039;ビジネスに適したLLMSを選択するためのガイドApr 12, 2025 am 11:40 AM

Leading with Dataのこのエピソードでは、Data Scienceの魅力的な世界に飛び込みます。RohanRaoは、Kaggle Grandmasterであり、機械学習ソリューションの専門家であるRohan Raoです。 Rohanは、戦略的パートナーシップに関する洞察を共有しています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。