ホームページ >テクノロジー周辺機器 >AI >A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

PHPz転載: 2023-05-07 10:43:081800ブラウズ

ポーズ画像からの 3D 屋内シーンの再構成は、通常 2 つの段階に分かれています。画像の深さの推定、それに続く深さの結合と表面の再構成です。最近、いくつかの研究が、最終的な 3D 体積特徴空間で直接再構成を実行する一連の方法を提案しています。これらの手法は優れた再構築結果を達成していますが、高価な 3D 畳み込み層に依存しているため、リソースに制約のある環境での適用は制限されます。

現在、Niantic や UCL などの研究機関の研究者は、従来の手法を再利用し、高品質のマルチビュー深度予測に焦点を当てようとしており、最終的にはシンプルで既製の深度を使用しています。フュージョン法、高精度の 3D 再構成。

論文アドレス: https://nianticlabs.github .io /simplerecon/resources/SimpleRecon.pdf
GitHub アドレス: https://github.com/nianticlabs/simplerecon
論文のホームページ: https://nianticlabs.github.io/simplerecon/

この研究では最初に強力な画像を使用します A 2D CNNは、平面スキャン特徴量や幾何学的損失だけでなく、実験に基づいて綿密に設計されています。提案された手法 SimpleRecon は、深度推定において大幅に優れた結果を達成し、オンラインでのリアルタイムの低メモリ再構成を可能にします。

下の図に示すように、SimpleRecon の再構成速度は非常に速く、1 フレームあたりわずか約 70 ミリ秒しかかかりません。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

#SimpleRecon と他の手法との比較結果は次のとおりです。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。 ##方法

深度推定モデルは、単眼深度推定と平面スキャンMVSの交差点に位置します。研究者はコストボリューム (コストボリューム) を使用して深度を増加させます。予測エンコーダ/デコーダのアーキテクチャ (図 2 を参照)。画像エンコーダは、コストボリュームへの入力として、参照画像とソース画像から一致する特徴を抽出します。 2D 畳み込みエンコーダ/デコーダネットワークを使用してコストボリュームの出力が処理され、別の事前トレーニング済み画像エンコーダによって抽出された画像レベルの特徴が強化されます。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

この調査の鍵は、一般的なディープイメージ機能とともに既存のメタデータをコストボリュームに挿入して、次のような有用な情報にネットワークアクセスできるようにすることです。ジオメトリと相対的なカメラのポーズ情報として。図 3 は、特徴ボリュームの構成を詳細に示しています。このこれまで利用されていなかった情報を統合することにより、私たちのモデルは、高価な 4D コストボリューム、複雑な時間融合、およびガウスプロセスを使用せずに、深度予測において以前の方法を大幅に上回る性能を発揮することができます。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

この調査は PyTorch を使用して実装され、UNet と同様のデコーダを備えた EfficientNetV2 S をバックボーンとして使用しました。さらに、ResNet18 も使用しました。最初の 2 ブロックはマッチング特徴抽出に使用され、オプティマイザーは AdamW で、2 つの 40GB A100 GPU で完了するまでに 36 時間かかりました。

ネットワークアーキテクチャ設計

ネットワークは、2D 畳み込みエンコーダ/デコーダアーキテクチャに基づいて実装されています。このようなネットワークを構築する場合、主に次のような、深さの予測精度を大幅に向上させることができる重要な設計上の選択肢がいくつかあることが研究で判明しています。融合法がよく使用されますが、システムの複雑さが大幅に増加します。代わりに、この研究ではコストボリュームフュージョンを可能な限り単純にし、参照ビューと各ソースビューの間のドット積マッチングコストを加算するだけで、SOTA 深度推定と競合する結果が得られることがわかりました。

画像エンコーダと特徴マッチングエンコーダ: これまでの研究では、画像エンコーダが単眼推定と多視点推定の両方で奥行き推定に非常に重要であることが示されています。たとえば、DeepVideoMVS は、比較的待ち時間が短い MnasNet を画像エンコーダとして使用します。この研究では、小型だがより強力な EfficientNetv2 S エンコーダを使用することを推奨しています。これにより、深度推定の精度が大幅に向上しますが、パラメータの数が増加し、実行速度が 10% 低下します。

マルチスケール画像特徴をコストボリュームエンコーダーに融合する: 2D CNN ベースのデプスステレオおよびマルチビューステレオでは、通常、画像特徴は単一スケールのコストボリューム出力と結合されます。最近、DeepVideoMVS は、あらゆる解像度で画像エンコーダーとコストボリュームエンコーダーの間にスキップ接続を追加し、複数のスケールでディープ画像特徴をステッチすることを提案しています。これは LSTM ベースのフュージョンネットワークに役立ちますが、この調査ではアーキテクチャにとっても重要であることがわかりました。

実験

この研究では、3D シーン再構成データセット ScanNetv2 で提案された方法をトレーニングし、評価しました。以下の表 1 では、Eigen et al. (2014) によって提案されたメトリクスを使用して、いくつかのネットワークモデルの深度予測パフォーマンスを評価しています。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

驚くべきことに、この研究で提案されたモデルは 3D 畳み込みを使用していませんが、深度予測指標ではすべてのベースラインモデルを上回っています。さらに、メタデータエンコーディングを使用しないベースラインモデルも、以前の方法よりも優れたパフォーマンスを発揮します。これは、高品質の深度推定には、適切に設計されトレーニングされた 2D ネットワークで十分であることを示しています。以下の図 4 と図 5 は、深さと法線の定性的な結果を示しています。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

# この研究では、3D 再構築評価のために TransformerFusion によって確立された標準プロトコルを使用しました。結果を表に示します。２以下です。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

オンラインでインタラクティブな 3D 再構成アプリケーションでは、センサーの遅延を短縮することが重要です。以下の表 3 は、新しい RGB フレームが与えられた場合の各モデルのフレームごとのアンサンブル計算時間を示しています。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

この研究で提案した方法の各コンポーネントの有効性を検証するために、研究者はアブレーション実験を実施しました。その結果は次のとおりです。以下の表 4 に記載されています。

A100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。

興味のある読者は、論文の原文を読んで研究の詳細を学ぶことができます。

以上がA100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：会話ロボット「トゥルーマン・ショー」：見守る人間同士の交流と愛次の記事：会話ロボット「トゥルーマン・ショー」：見守る人間同士の交流と愛

続きを見る