ホームページ  >  記事  >  テクノロジー周辺機器  >  Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

WBOY
WBOY転載
2023-04-08 21:41:041104ブラウズ

arXiv 論文「Unifying Voxel-based Representation with Transformer for 3D Object Detection」、6 月 22 日、香港中文大学、香港大学、Megvii Technology (孫建博士を追悼)、および Simou Technology、等

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

この論文では、UVTR と呼ばれる統合マルチモーダル 3D ターゲット検出フレームワークを提案します。この方法は、ボクセル空間のマルチモーダル表現を統合し、正確かつ堅牢なシングルモーダルまたはクロスモーダル 3D 検出を可能にすることを目的としています。この目的を達成するために、まずモダリティ固有の空間が、ボクセル特徴空間へのさまざまな入力を表すように設計されます。高さを圧縮せずにボクセル空間を維持し、意味上のあいまいさを軽減し、空間相互作用を可能にします。この統一されたアプローチに基づいて、知識伝達やモーダル融合など、さまざまなセンサーの固有の特性を十分に活用するためのクロスモーダルインタラクションが提案されています。このようにして、点群のジオメトリを意識した表現と画像内のコンテキストに富んだ特徴をうまく活用することができ、その結果、パフォーマンスと堅牢性が向上します。

トランスフォーマー デコーダは、学習可能な位置を持つ統一空間から特徴を効率的にサンプリングするために使用され、オブジェクト レベルの対話が容易になります。一般的に言えば、UVTR は、統一されたフレームワークでさまざまなモダリティを表現する初期の試みを表しており、シングルモーダルおよびマルチモーダル入力に関する以前の研究を上回り、nuScenes テスト セット、LIDAR、カメラ、およびマルチモーダル出力の NDS で優れたパフォーマンスを達成しています。はそれぞれ69.7%、55.1%、71.1%です。

コード:https://github.com/dvlab-research/UVTR.

図に示すように:

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

#表現統一プロセスでは、入力レベルのフローと特徴レベルのフローの表現に大別できます。最初のアプローチでは、マルチモーダル データがネットワークの先頭で調整されます。特に、(a) の疑似点群は予測深度支援画像から変換され、(b) のレンジビュー画像は点群から投影されます。擬似点群の深度の不正確さとレンジビュー画像の 3D 幾何学的崩壊により、データの空間構造が破壊され、結果が悪くなります。特徴レベルの方法の場合、図 (c) に示すように、画像特徴を錐台に変換し、BEV 空間に圧縮するのが一般的な方法です。ただし、光線のような軌道のため、各位置での高さ情報 (高さ) の圧縮によりさまざまなターゲットの特徴が集約され、意味上の曖昧さが生じます。同時に、その暗黙的なアプローチでは、3 次元空間での明示的なフィーチャの相互作用をサポートすることが難しく、さらなる知識の伝達が制限されます。したがって、モーダルギャップを埋め、多面的な相互作用を促進するには、より統一された表現が必要です。

この記事で提案するフレームワークは、ボクセルベースの表現とトランスフォーマーを統合します。特に、ボクセルベースの明示的な空間における画像と点群の特徴表現と相互作用。画像の場合、図 (d) に示すように、予測された深さと幾何学的制約に従って画像平面から特徴をサンプリングすることによってボクセル空間が構築されます。点群の場合、位置が正確であれば、自然にフィーチャをボクセルに関連付けることができます。次に、空間相互作用のためにボクセル エンコーダーが導入され、隣接するフィーチャ間の関係が確立されます。このようにして、クロスモーダル インタラクションは各ボクセル空間内のフィーチャで自然に進行します。ターゲット レベルのインタラクションの場合、図 (d) に示すように、デコーダとして変形可能トランスが使用され、統合ボクセル空間内の各位置 (x、y、z) でターゲット クエリ固有の特徴がサンプリングされます。同時に、3D クエリ位置の導入により、BEV 空間の高さ情報 (高さ) 圧縮によって引き起こされる意味上の曖昧さが効果的に軽減されます。

図に示すように、マルチモーダル入力の UVTR アーキテクチャです。単一フレームまたはマルチフレームのイメージと点群が与えられると、まず単一のバックボーンで処理され、モダリティ固有の空間 VI に変換されます。 VP では、画像に対してビュー変換が使用されます。ボクセル エンコーダーでは、特徴が空間的に相互作用するため、トレーニング中に知識の伝達を簡単にサポートできます。設定に応じて、モーダル スイッチを使用してシングルモーダル機能またはマルチモーダル機能を選択します。最後に、学習可能な位置を含む統合空間 VU から特徴がサンプリングされ、トランスフォーマー デコーダーを使用して予測されます。

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

図は、ビュー変換の詳細を示しています。

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

図は、ナレッジ移行の詳細を示しています。

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

実験結果は次のとおりです:

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

以上がTransformer は 3D オブジェクト検出のためにボクセルベースの表現を統合しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。