Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考-AI-php.cn

ホームページ

テクノロジー周辺機器

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

PHPz

Apr 09, 2023 pm 06:51 PM

テクノロジーターゲットの検出

arXiv 論文「Graph-DETR3D: マルチビュー 3D オブジェクト検出のための重複領域の再考」、6 月 22 日、中国科学技術大学、ハルビン工業大学、および SenseTime の研究。

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

複数の画像ビューから 3D オブジェクトを検出することは、視覚的なシーンを理解する上で基本的ですが困難なタスクです。マルチビュー 3D 物体検出は、その低コストと高効率により、幅広い応用の可能性を示しています。ただし、奥行き情報が不足しているため、3 次元空間で遠近法を通じてオブジェクトを正確に検出することは非常に困難です。最近、DETR3D は、3D オブジェクト検出のためにマルチビュー画像を集約するための新しい 3D-2D クエリパラダイムを導入し、最先端のパフォーマンスを実現します。

この論文では、集中的なガイド付き実験を通じて、さまざまな領域にあるターゲットを定量化し、「切り詰められたインスタンス」(つまり、各画像の境界領域) が DETR3D のパフォーマンスを妨げる主なボトルネックであることを発見しました。 DETR3D は、重なり合う領域で 2 つの隣接するビューからの複数の特徴を結合しているにもかかわらず、依然として特徴の集約が不十分であるため、検出パフォーマンスを完全に向上させる機会を逃しています。

この問題を解決するために、グラフ構造学習(GSL)によって多視点画像情報を自動的に集約するGraph-DETR3Dが提案されています。動的 3D マップは、特に境界領域でのターゲット表現を強化するために、各ターゲットクエリと 2D 特徴マップの間に構築されます。さらに、Graph-DETR3D は、画像サイズとターゲット深度を同時にスケーリングすることで視覚的な深度の一貫性を維持する、新しい深度不変マルチスケールトレーニング戦略の恩恵を受けています。

Graph-DETR3D の違いは、図に示すように、(1) 動的グラフ特徴の集約モジュール、(2) 深さ不変のマルチスケールトレーニング戦略の 2 点にあります。 DETR3D の基本構造に従い、画像エンコーダー、トランスフォーマーデコーダー、ターゲット予測ヘッドの 3 つのコンポーネントで構成されます。一連の画像 I = {I1, I2,…,IK} (N 個のペリビューカメラで撮影) が与えられた場合、Graph-DETR3D は、対象の境界ボックスの位置とカテゴリを予測することを目的としています。まず、画像エンコーダ (ResNet や FPN を含む) を使用して、これらの画像を比較的 L 個の特徴マップレベルの特徴 F のセットに変換します。次に、動的 3-D グラフが構築され、動的グラフ機能集約 (DGFA) モジュールを通じて 2-D 情報が広範囲に集約され、ターゲットクエリの表現が最適化されます。最後に、強化されたターゲットクエリを利用して最終予測を出力します。

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

図は、動的グラフ特徴集約 (DFGA) プロセスを示しています。まず、ターゲットクエリごとに学習可能な 3-D グラフを構築し、次に学習可能な 3-D グラフを構築します。 2D 画像平面からのサンプリング特性。最後に、ターゲットクエリの表現は、グラフ接続を通じて強化されます。この相互接続されたメッセージ伝播スキームは、グラフ構造の構築と機能強化の反復的な改良をサポートします。

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

マルチスケールトレーニングは、2D および 3D の物体検出タスクで一般的に使用されるデータ拡張戦略であり、効果的で低コストの推論であることが証明されています。ただし、視覚ベースの 3D 検査方法ではほとんど表示されません。さまざまな入力画像サイズを考慮すると、画像サイズを調整し、カメラの内部パラメータを変更して共通のマルチスケールトレーニング戦略を実装しながら、モデルの堅牢性を向上させることができます。

興味深い現象は、最終的なパフォーマンスが急激に低下することです。入力データを注意深く分析することにより、単に画像を再スケールすると遠近の曖昧さの問題が生じることがわかりました。ターゲットのサイズをより大きい/より小さいスケールに変更すると、その絶対的なプロパティ (ターゲットのサイズ、自我までの距離など)ポイント）変更しないでください。

具体例として、(a)と(b)の選択領域の絶対的な3次元位置は同じであるが、画像のピクセル数が異なるという曖昧な問題を図に示します。深度予測ネットワークは、画像の占有領域に基づいて深度を推定する傾向があります。したがって、図のこのトレーニングパターンは深さ予測モデルを混乱させ、最終的なパフォーマンスをさらに低下させる可能性があります。

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

この目的のために、ピクセルの観点から深度を再計算します。アルゴリズムの疑似コードは次のとおりです。

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

デコード操作は次のとおりです。

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

再計算されたピクセルサイズは次のとおりです:

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

スケール係数 r = rx = ry と仮定すると、単純化して次のようになります:

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

#実験結果は次のとおりです。

Graph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考

##注: DI = 深さ不変

以上がGraph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。これは、WTIの調査結果によって強調されています。従業員の68％がワークロードに苦労しており、BURにつながります

AIは理解できますか？中国の部屋の議論はノーと言っていますが、それは正しいですか？Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論：AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーしますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP：AIシステムに外部ツールにアクセスできるようになりますモデルコンテキストプロトコル（MCP）により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者：Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール：画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決しますエージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

（注：Googleは私の会社であるMoor Insights＆Strategyのアドバイザリークライアントです。） AI：実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

メモ帳++7.3.1

使いやすく無料のコードエディター

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。