光のリアルなシミュレーションは、自動運転などのアプリケーションで重要な役割を果たします。ニューラル ネットワーク放射場 (NeRF) の進歩により、デジタル 3D アセットが自動的に作成され、スケーラビリティが向上する可能性があります。ただし、路上でのカメラの動きの高い共線性と高速でのサンプリングがまばらなため、街路シーンの再構成の品質が低下します。一方、アプリケーションでは、車線変更などの動作を正確にシミュレートするために、入力視点から逸脱したカメラ視点からのレンダリングが必要になることがよくあります。 LidaRF は、ストリート ビューでの NeRF の品質を向上させるために LIDAR データをより適切に利用できるようにするいくつかの洞察を提供します。まず、フレームワークは LiDAR データから幾何学的シーン表現を学習し、暗黙的なメッシュベースのデコーダーと組み合わせて、表示された点群によって提供されるより強力な幾何学的情報を提供します。次に、堅牢なオクルージョンを意識した深度教師ありトレーニング戦略が提案され、高密度の LiDAR 点群を使用して強力な情報を蓄積することで、ストリート シーンでの NeRF 再構成の品質を向上させることができます。第三に、強化されたトレーニング パースペクティブは LIDAR ポイントの強度に基づいて生成され、実際の運転シナリオでの新しいパースペクティブ合成で得られた大幅な改善をさらに改善します。 このようにして、LIDAR データからフレームワークによって学習された、より正確な幾何学的シーン表現を使用して、この方法を 1 つのステップで改善し、実際の運転シナリオでより優れた大幅な改善を得ることができます。
LidaRF の貢献は主に 3 つの側面に反映されています:
(i) LIDAR エンコーディングとグリッド機能を組み合わせてシーン表現を強化します。 LIDAR は自然深度モニタリング ソースとして使用されてきましたが、LIDAR を NeRF 入力に組み込むと、幾何学的誘導の大きな可能性が得られますが、実装は簡単ではありません。この目的のために、グリッドベースの表現が借用されますが、点群から学習した特徴がグリッドに融合されて、明示的な点群表現の利点が継承されます。 3D センシング フレームワークの立ち上げの成功により、3D スパース畳み込みネットワークは、LIDAR 点群のローカルおよびグローバル コンテキストから幾何学的特徴を抽出するための効果的かつ効率的な構造として利用されます。
(ii) 堅牢なオクルージョンを意識した深度監視。既存の研究と同様に、ここでも LIDAR が詳細な監視のソースとして使用されていますが、より詳細なものです。 LIDAR ポイントのまばらさによって、特に低テクスチャ領域ではその有効性が制限されるため、隣接するフレーム全体で LIDAR ポイントを集約することによって、より高密度の深度マップが生成されます。しかし、このようにして得られた深度マップはオクルージョンを考慮していないため、誤った深度監視が発生します。したがって、クラス学習の方法を借用した、堅牢な深さ監視スキームが提案されます。つまり、近距離フィールドから遠距離フィールドまで深度を徐々に監視し、NeRF トレーニングプロセス中に間違った深度を徐々にフィルタリングして、より効果的に深度を抽出します。 LIDAR から深度を学習します。
(iii) LiDAR ベースのビュー拡張。さらに、運転シナリオではビューがまばらで対象範囲が限られているため、LIDAR を利用してトレーニング ビューを高密度化します。つまり、蓄積された LIDAR ポイントが新しいトレーニング ビューに投影されます。これらのビューは運転軌跡から多少逸脱する可能性があることに注意してください。 LIDAR から投影されたこれらのビューはトレーニング データセットに追加されますが、オクルージョンの問題は考慮されていません。ただし、前述の監視スキームを適用してオクルージョン問題を解決し、パフォーマンスを向上させます。私たちの手法は一般的なシーンにも適用可能ですが、今回は街路シーンの評価に重点を置き、既存の手法と比較して量的・質的に大幅な改善を実現しました。
LidaRF は、入力ビューからの大きな逸脱を必要とする興味深いアプリケーションでも利点を示しており、困難なストリート シーン アプリケーションにおける NeRF の品質を大幅に向上させます。
LidaRF の全体的なフレームワークの概要
LidaRF は、UNet を使用して、ハフ コーディングと LiDAR コーディングを組み合わせて、対応する濃度と色を入力および出力するためのメソッドです。さらに、強化されたトレーニング データは、提案された堅牢な深度監視スキームを使用して幾何学的予測をトレーニングするために LIDAR 投影によって生成されます。
1) LIDAR エンコーディングのハイブリッド表現
LiDAR 点群には強力な幾何学的誘導の可能性があり、これは NeRF (Neural Rendering Field) にとって非常に価値があります。ただし、シーン表現を LIDAR フィーチャのみに依存すると、(時間的に蓄積されるにもかかわらず) LIDAR ポイントのまばらな性質により、低解像度のレンダリングが発生します。さらに、LIDAR の視野は限られているため、たとえば、特定の高さ以上の建物の表面をキャプチャできないため、これらの領域では空白のレンダリングが発生します。対照的に、私たちのフレームワークは、LIDAR 機能と高解像度空間グリッド機能を融合して、両方の利点を活用し、一緒に学習して高品質で完全なシーン レンダリングを実現します。
LiDAR 特徴抽出。各 LIDAR ポイントの幾何学的特徴抽出プロセスについては、図 2 を参照して詳しく説明します。まず、シーケンス全体のすべてのフレームの LIDAR 点群が集約されて、より高密度の点群コレクションが構築されます。次に、点群はボクセル グリッドにボクセル化され、各ボクセル ユニット内の点の空間位置が平均されて、各ボクセル ユニットの 3D 特徴が生成されます。 3D 認識フレームワークの広範な成功に触発され、シーン ジオメトリの特徴はボクセル グリッド上の 3D スパース UNet を使用してエンコードされ、シーン ジオメトリのグローバル コンテキストから学習できるようになります。 3D スパース UNet は、ボクセル グリッドとその 3 次元特徴を入力として受け取り、占有された各ボクセルは n 次元特徴で構成されます。
Lidar機能クエリ。レンダリングされるレイに沿った各サンプル ポイント x について、検索半径 R 内に少なくとも K 個の近くの LIDAR ポイントがある場合、その LIDAR フィーチャがクエリされます。それ以外の場合、その LIDAR フィーチャは null (つまり、すべて 0) に設定されます。具体的には、固定半径最近傍法 (FRNN) を使用して、 x に関連する K 個の最近接 LIDAR ポイント インデックス セットを検索します ( で示されます)。トレーニング プロセスを開始する前にレイ サンプリング ポイントを事前に決定する [9] の方法とは異なり、NeRF トレーニングが収束するにつれて領域ネットワークからのサンプル ポイントの分布が動的に変化するため、FRNN 探索を実行するときの私たちの方法はリアルタイムです。表面に焦点を合わせるため。 Point-NeRF アプローチに従って、私たちの方法は多層パーセプトロン (MLP) F を利用して、各ポイントの LIDAR 特徴をニューラル シーン記述にマッピングします。逆距離重み付け法の i 番目の隣接点に対して、その K 個の隣接点のニューラル シーン記述を集約します
放射復号化のための特徴融合。 LIDAR コード ϕL はハッシュ コード ϕh と連結され、多層パーセプトロン Fα を適用して各サンプルの密度 α と密度埋め込み h を予測します。最後に、別の多層パーセプトロン Fc を通じて、対応する色 c が、球面調和関数エンコーディング SH と視線方向 d の密度埋め込み h に基づいて予測されます。
特徴のエンコードに加えて、深度監視は、LIDAR ポイントを画像平面に投影することによって取得されます。ただし、LIDAR ポイントがまばらであるため、得られる利点は限られており、舗装などの低テクスチャ領域を再構築するには不十分です。ここでは、密度を高めるために隣接する LIDAR フレームを蓄積することを提案します。 3D ポイントはシーン構造を正確にキャプチャできますが、深度監視のために画像平面にポイントを投影する際には、ポイント間のオクルージョンを考慮する必要があります。図 3 に示すように、カメラと LIDAR およびその隣接フレーム間の変位の増加によりオクルージョンが発生し、誤った深度監視が発生します。 LIDAR は蓄積後もスパースであるため、この問題に対処するのは非常に難しく、Z バッファリングなどの基本的なグラフィックス技術が適用できなくなります。この研究では、NeRF をトレーニングする際に偽の深い監視を自動的に除去するための堅牢な監視スキームが提案されています。
オクルージョン認識のための堅牢な監視スキーム。この論文では、オクルージョンの影響を受けにくい、より近く信頼性の高い深度データを使用してモデルが最初にトレーニングされるように、クラス トレーニング戦略を設計します。トレーニングが進行するにつれて、モデルにはさらなる深度データが徐々に組み込まれ始めます。同時に、このモデルは、予測から異常にかけ離れた深い監視を破棄する機能も備えています。
車載カメラが前方に移動するため、生成されるトレーニング画像はまばらで、視野範囲が限られており、特に新しいビューが車両の軌道から逸脱する場合、NeRF 再構成に課題が生じることを思い出してください。ここでは、LiDAR を活用してトレーニング データを強化することを提案します。まず、各 LIDAR フレームの点群を同期カメラに投影し、RGB 値を補間することで色付けします。色付きの点群が蓄積され、合成的に強化されたビューのセットに投影され、図 2 に示す合成画像と深度マップが生成されます。
実験比較分析
以上がLidaRF: ストリート ビュー神経放射線場の LiDAR データの研究 (CVPR\'24)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 シナリオを想像してみてください。チームは、多様なソースからの大規模なデータセットに圧倒されます。 意味のあるプレゼンテーションのためにこの情報を統合、並べ替え、分析することは課題です。これは、パワーバイセマンティックモデル(PBISM)Ex

AIエージェント:LlamaindexとMonsterapiを搭載したAIの未来 AIエージェントは、テクノロジーとの対話方法に革命をもたらす態勢を整えています。 これらの自律システムは、人間の行動を模倣し、推論、意思決定、およびREAを必要とするタスクを実行します

自律AIのロック解除:自己トレーニングLLMの7つの方法 子どもたちが複雑な概念を独立して習得するように、AIシステムが人間の介入なしに学び、進化する未来を想像してください。これはサイエンスフィクションではありません。それは自己の約束です

AI搭載の財務報告:自然言語生成による洞察の革命 今日のダイナミックなビジネス環境では、戦略的意思決定には正確でタイムリーな財務分析が最重要です。 従来の財務報告

Google Deepmind's Table Tennis Robot:スポーツとロボット工学の新しい時代 パリ2024年のオリンピックは終わったかもしれませんが、Google Deepmindのおかげで、スポーツとロボット工学の新しい時代が夜明けです。 彼らの画期的な研究(「「人間レベルの競争を達成する」

Gemini Flash 1.5による効率とスケーラビリティのロック解除:Flask Food Vision WebApp 急速に進化するAIの状況では、効率とスケーラビリティが最重要です。 開発者は、コストとレイテンシを最小限に抑える高性能モデルをますます求めています

llamaindexを使用してAIエージェントのパワーを活用:ステップバイステップガイド 迅速な計算であろうと最新の市場ニュースを取得するかどうかにかかわらず、リクエストを理解し、完璧に実行するパーソナルアシスタントを想像してください。この記事で探求します

Jupyter Notebook(.ipynb)ファイルは、データ分析、科学的コンピューティング、およびインタラクティブエンコーディングで広く使用されています。これらのノートブックは、他のデータサイエンティストとコードを開発および共有するのに最適ですが、PDFなどのより一般的に読みやすい形式に変換する必要がある場合があります。このガイドでは、.ipynbファイルをPDFに変換するさまざまな方法、およびヒント、ベストプラクティス、およびトラブルシューティングの提案をご覧ください。 目次 .ipynbをPDFに変換する理由 .ipynbファイルをPDFに変換する方法 JupyterノートブックUIを使用します nbconveを使用します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ドリームウィーバー CS6
ビジュアル Web 開発ツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、
