検索
ホームページテクノロジー周辺機器AIゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

オブジェクトの姿勢推定は、身体化された知能、巧みなロボット操作、拡張現実など、多くの実世界のアプリケーションで重要な役割を果たします。

この分野で注目すべき最初のタスクは インスタンス レベルの 6D 姿勢推定で、これにはモデルのトレーニングのためにターゲット オブジェクトに関する注釈付きデータが必要です。深度モデルはオブジェクト固有であり、新しいオブジェクトに転送することはできません。その後、研究の焦点は徐々に カテゴリレベルの 6D 姿勢推定 に移りました。これは目に見えないオブジェクトを処理するために使用されますが、そのオブジェクトが既知のオブジェクトに属している必要があります。興味のあるカテゴリー。

そして ゼロサンプル 6D 姿勢推定 は、より一般化されたタスク設定であり、任意のオブジェクトの CAD モデルを指定して、シーン内のターゲット オブジェクトを検出することを目的としています。そしてその6D姿勢を推定します。その重要性にもかかわらず、このゼロショット タスク設定は、物体検出と姿勢推定の両方において大きな課題に直面しています。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

図 1. ゼロサンプル 6D オブジェクトの姿勢推定タスク

最近、すべてのモデルをセグメント化 SAM [1]は大きな注目を集めており、その優れたゼロサンプルセグメンテーション能力は目を引きます。 SAM は、ピクセル、バウンディング ボックス、テキスト、マスクなどのさまざまなキューを通じて高精度のセグメンテーションを実現します。これにより、ゼロサンプルの 6D オブジェクトの姿勢推定タスクに対する信頼性の高いサポートも提供され、その有望な可能性が実証されます。

そこで、Cross-Dimensional Intelligence、香港中文大学 (深セン)、華南理工大学の研究者は共同で、革新的なゼロサンプル 6D 物体姿勢推定フレームワーク SAM を提案しました。 -6D。この研究は CVPR 2024 に含まれています。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく


#

  • 論文リンク: https://arxiv.org/pdf/2311.15707.pdf
  • コードリンク: https://arxiv.org/pdf/2311.15707.pdf

://github.com/JiehongLin/SAM-6D

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくSAM-6D は、インスタンスのセグメンテーションとポーズを含む 2 つのステップを通じて、ゼロサンプルの 6D オブジェクトのポーズ推定を実現します。推定。したがって、任意のターゲット オブジェクトが与えられると、SAM-6D は 2 つの専用サブネットワーク、つまり

インスタンス セグメンテーション モデル (ISM) とポーズ推定モデル (PEM)

を利用して、RGB-D シーン イメージからターゲットを達成します。その中で、ISM は SAM を優れた出発点として使用し、慎重に設計されたオブジェクト マッチング スコアと組み合わせて、任意のオブジェクトのインスタンス セグメンテーションを実現します。PEM は、ローカル対ローカルの 2 段階の点セット マッチング プロセスを通じてオブジェクトの姿勢問題を解決します。 SAM-6Dの概要を図2に示します。

図 2. SAM-6D の概要
  • 一般的に、SAM-6D テクノロジの貢献は次のとおりです。
  • SAM-6D は、CAD を使用して RGB-D 画像から RGB-D 画像を生成できる革新的なゼロサンプル 6D 姿勢推定フレームワークです。あらゆるオブジェクトのモデルを作成し、ターゲット オブジェクトのインスタンス セグメンテーションと姿勢推定を実行し、BOP [2] の 7 つのコア データセットで優れたパフォーマンスを発揮します。
  • SAM-6D は、すべてのセグメンテーション モデルのゼロショット セグメンテーション機能を活用して、考えられるすべての候補オブジェクトを生成し、ターゲット オブジェクトに対応するオブジェクトを識別するための新しいオブジェクト マッチング スコアを設計します。候補者。

SAM-6D は、姿勢推定をローカル間の点集合のマッチング問題と見なし、シンプルだが効果的なバックグラウンド トークン設計を採用し、任意のオブジェクトに対する 2 次元アルゴリズムを提案します。ステージ点セット マッチング モデル。第 1 ステージでは粗い点セット マッチングを実装して初期オブジェクト ポーズを取得し、第 2 ステージでは新しい疎点セットから高密度点セットへの変換を使用して細かい点セット マッチングを実行し、ポーズをさらに最適化します。

インスタンス セグメンテーション モデル (ISM)

SAM-6D は、インスタンス セグメンテーション モデル (ISM) を使用して、任意のオブジェクトを検出してセグメント化します。マスク。

RGB イメージで表される乱雑なシーンを考慮して、ISM はセグメンテーション エブリシング モデル (SAM) のゼロショット転送機能を活用して、考えられるすべての候補を生成します。 ISM は候補オブジェクトごとにオブジェクト一致スコアを計算し、セマンティクス、外観、ジオメトリの観点からターゲット オブジェクトとどの程度一致しているかを推定します。最後に、一致しきい値を設定するだけで、ターゲット オブジェクトに一致するインスタンスを識別できます。 ############オブジェクト一致スコアは、3 つの一致項目の加重合計によって計算されます:######

セマンティック マッチング アイテム - ターゲット オブジェクトについて、ISM は複数の観点からオブジェクト テンプレートをレンダリングし、DINOv2 [3] の事前トレーニング済み ViT モデルを使用して候補オブジェクトとオブジェクト テンプレートを抽出します。そしてそれらの間の相関スコアを計算します。意味的一致スコアは、上位 K 個の最高スコアを平均することによって取得され、最も高い相関スコアに対応するオブジェクト テンプレートが最も一致するテンプレートとみなされます。

外観マッチング項目 ——最適にマッチングするテンプレートについては、ViT モデルを使用して画像ブロックの特徴を抽出し、それと画像のブロック特徴の間の相関を計算します。これにより、意味的に類似しているが外観が異なるオブジェクトを区別するために使用される外観一致スコアが得られます。

幾何学的一致 - さまざまなオブジェクトの形状やサイズの違いなどの要因を考慮して、ISM は幾何学的一致スコアも設計しました。最もよく一致するテンプレートと候補オブジェクトの点群に対応する回転の平均により、大まかなオブジェクトのポーズが得られ、このポーズを使用してオブジェクト CAD モデルを剛体変換および投影することにより、バウンディング ボックスを取得できます。境界ボックスと候補境界ボックスの間の交差対和集合 (IoU) 比を計算すると、幾何学的マッチング スコアを取得できます。

姿勢推定モデル (PEM)

ターゲット オブジェクトと一致する各候補オブジェクトに対して、SAM-6D は姿勢推定モデル (PEM) を利用します。 ) ) を使用して、オブジェクトの CAD モデルを基準にして 6D 姿勢を予測します。

セグメント化された候補オブジェクトとオブジェクト CAD モデルのサンプリング ポイント セットをそれぞれ ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく として表します。 N_m と N_o はそれらの点の数を表し、同時にこれら 2 つの点セットの特徴は ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく として表され、C はその数を表します機能のチャンネル数。 PEM の目的は、P_m から P_o までのローカル間対応を表す割り当て行列を取得することです。オクルージョンにより、P_o は P_m と部分的にのみ一致し、セグメンテーションの不正確さとセンサー ノイズにより、P_m は部分的にのみ一致します。 部分的 AND 一致ぽ。

2 つの点セット間で重複しない点を割り当てる問題を解決するために、ISM にはそれぞれのバックグラウンド トークンが装備されており、ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく および ## として記録されます。 ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく#、すると、特徴の類似性に基づいて、ローカル間の対応を効果的に確立できます。具体的には、まず注目行列を次のように計算できます。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

次に、分布行列を取得できます

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく はそれぞれ行と列に沿ったソフトマックス演算を表し、ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく は定数を表します。 ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく の各行の値 (最初の行を除く) は、点集合 P_m 内の各点 P_m と背景および P_o の中点との一致確率を表します。スコアを取得すると、P_m (背景を含む) に一致するポイントを見つけることができます。

計算結果が得られたら、すべてのマッチング ポイント ペア {(P_m,P_o)} とそのマッチング スコアを収集し、最終的に重み付き SVD オブジェクト姿勢を使用して計算できます。 ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

図 3. SAM-6Dゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

の姿勢推定モデル (PEM) の概略図

バックグラウンド トークンに基づく上記の戦略を使用して、PEM で 2 つの点セット マッチング ステージが設計されています。モデル構造は図 3 に示されています。特徴抽出、大まかな点セット マッチング、および詳細な点セットが含まれます。 3 つのモジュールに一致します。

ラフ点セット マッチング モジュールは、スパース対応を実装してオブジェクトの初期ポーズを計算し、このポーズを使用して候補オブジェクトの点セットを変換し、位置エンコード学習を実現します。

詳細点セット マッチング モジュールは、候補オブジェクトとターゲット オブジェクトのサンプリング点セットの位置エンコーディングを組み合わせて、第 1 段階で大まかな対応関係を注入し、さらに確立します。より正確なオブジェクトのポーズを取得するための密な対応関係。この段階で密な相互作用を効果的に学習するために、PEM は新しい疎から密への点集合変換器を導入します。これは、密な特徴の疎なバージョンで相互作用を実装し、線形変換器 [5] を利用して強化された疎な特徴を拡散に変換して密な特徴に戻します。特徴。

実験結果

SAM-6D の 2 つのサブモデルでは、インスタンス セグメンテーション モデル (ISM) が SAM とネットワークは再トレーニングされ、微調整されますが、姿勢推定モデル (PEM) は、MegaPose [4] によって提供される大規模な ShapeNet-Objects および Google-Scanned-Objects 合成データセットを使用してトレーニングされます。

ゼロサンプル機能を検証するために、SAM-6D は、LM-O、T-LESS、TUD-L、IC を含む BOP [2] の 7 つのコア データ セットでテストされました。 -BIN、ITODD、HB、YCB-V。表 1 と表 2 は、これら 7 つのデータセットに対するさまざまな方法によるインスタンスのセグメンテーションと姿勢推定の結果の比較をそれぞれ示しています。他の手法と比較して、SAM-6D は両方の手法で非常に優れたパフォーマンスを発揮し、その強力な汎化能力を十分に実証しています。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

#表 1. BOP 7 つのコア データ セットに対するさまざまな方法のインスタンス セグメンテーション結果の比較

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

表 2. BOP の 7 つのコア データ セットに対するさまざまな方法の姿勢推定結果の比較

図 4 は、BOP における SAM-6D のパフォーマンスを示しています。 7 3 つのデータセットに対する検出セグメンテーションと 6D 姿勢推定の視覚化結果。(a) と (b) はそれぞれテスト RGB 画像と深度マップ、(c) は指定されたターゲット オブジェクト、(d) と (e)はそれぞれ検出セグメンテーションと 6D ポーズの可視化結果です。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

図 4. BOP の 7 つのコア データセットに対する SAM-6D の視覚化結果。

SAM-6D の実装の詳細については、元の論文をお読みください。

以上がゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター