検索
ホームページテクノロジー周辺機器AIマルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

元のタイトル: GraphAlign: Enhancing Accurate feature Alignment by Graphmatching for Multi-Modal 3D Object Detection

書き直す必要がある内容は次のとおりです: 論文リンク: https://arxiv.org/pdf/ 2310.08261. pdf

著者の所属: 北京交通大学、河北科技大学、清華大学

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

#論文のアイデア:

LiDAR とカメラは、自動運転における 3D 物体検出のための補完的なセンサーです。ただし、点群と画像の間の不自然な相互作用を研究することは困難であり、鍵となるのは、異種モダリティの特徴位置合わせをどのように実行するかにあります。現在、多くの方法は投影キャリブレーションを通じてのみ特徴の位置合わせを実現しており、センサー間の座標変換精度誤差の問題を無視しているため、最適なパフォーマンスが得られません。この論文では、グラフ マッチングによる 3D オブジェクト検出のための、GraphAlign と呼ばれる、より正確な特徴位置合わせ戦略を提案します。具体的には、この論文では、画像ブランチのセマンティック セグメンテーション エンコーダの画像特徴と、LiDAR ブランチの 3D スパース CNN の点群特徴を融合します。計算量を削減するために、この論文ではユークリッド距離計算を使用して、点群特徴部分空間内で最近傍関係を構築します。画像と点群間の投影キャリブレーションを通じて、点群フィーチャの最近傍が画像フィーチャに投影されます。次に、単一の点群の最も近い点を複数の画像と照合することで、より適切な特徴の位置合わせを検索します。さらに、この論文では、異種モダリティ間の特徴の調整を微調整するために重要な関係の重みを強化するセルフ アテンション モジュールも提供します。この記事で提案した GraphAlign の有効性と効率性を証明するために、nuScenes ベンチマークで多数の実験が実施されました。

主な貢献:

この記事では、GraphAlign を提案しました。マルチモーダル 3D オブジェクト検出における位置ずれの問題を解決する、グラフベースのグラフ マッチング機能位置合わせフレームワーク。

この記事では、画像特徴と点群特徴の正確な位置合わせを実現するためのグラフ特徴位置合わせ (GFA) およびセルフアテンション特徴位置合わせ (SAFA) モジュールを提案します。これにより、点群と画像モダリティの間の特徴位置合わせがさらに強化されます。となり、検出精度が向上します。

KITTI と nuScenes の 2 つのベンチマークを使用して実験を実施することにより、GraphAlign が、特に長距離ターゲット検出において点群検出の精度を効果的に向上させることができることを証明しました

ネットワーク設計:

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

図 1. フィーチャ アライメント戦略の比較

(a) 投影ベースの方法では、モーダル フィーチャ間の関係を迅速に確立できます。ただし、センサー誤差により位置ずれが発生する場合があります。 (b) アテンションベースの方法は、アライメントを学習することで意味情報を保持しますが、計算コストが高くなります。 (c) この論文で提案されている GraphAlign は、グラフベースの特徴アライメントを使用してモダリティ間のより合理的なアライメントを照合することで、計算量を削減し、精度を向上させます。

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

図 2. GraphAlign のフレームワーク。

中国語で次のように書き直されます。これは、グラフ特徴アライメント (GFA) モジュールとセルフアテンション特徴アライメント (SAFA) モジュールで構成されます。 GFA モジュールは、画像および点群フィーチャを入力として受け取り、投影キャリブレーション マトリックスを使用して 3D 位置を 2D ピクセル位置に変換し、最近傍情報を構築して最近傍を見つけ、画像および点群フィーチャを結合します。 SAFA モジュールは、セルフ アテンション メカニズムを通じて K の最近傍間のコンテキスト上の関係をモデル化し、融合された特徴の重要性を高め、最終的に最も代表的な特徴を選択します

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション #図 3. GFA処理フロー

(a) センサーの精度誤差により位置ずれが発生します。 (b) GFA は、点群フィーチャのグラフを通じて近接関係を確立します。 (c) この記事では、点群特徴を画像特徴に投影し、画像特徴の K 最近傍を取得します。 (d) この論文では、より適切な位置合わせを達成するために、個々の点群特徴を K 個の隣接する画像特徴と融合することによって、1 対多の融合を実行します。

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション図 4. SAFA モジュールのプロセス

head モジュールと max モジュールを簡略化しました。SAFA モジュールの目的は、head モジュールと max モジュールの間のグローバル コンテキスト情報を改善することです。 K 近傍。 、融合されたフィーチャの表現を強化するため

################ 実験結果: ############################### #

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション##引用:

#Song, Z.、Wei, H.、Bai, L.、Yang, L.、Jia, C. (2023) . GraphAlign:マルチモーダル 3D オブジェクト検出のためのグラフ マッチングによる正確なフィーチャ アライメントの強化。マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

ArXiv. /abs/2310.08261

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション

マルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーション元のリンク: https://mp .weixin.qq.com/s/eN6THT2azHvoleT1F6MoSw

以上がマルチモーダル 3D オブジェクト検出を強化するための正確な特徴位置合わせ: GraphAlign のアプリケーションの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics Vidhyaラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

Dagsterでデータ品質チェックを自動化しますDagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか?メインフレームはAI時代に役割を果たしていますか?Apr 11, 2025 am 11:42 AM

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境