CVPR 2024 フルスコア論文: 浙江大学が、変形可能な 3 次元ガウス分布に基づく高品質な単眼動的再構成の新しい方法を提案-AI-php.cn

ホームページ

テクノロジー周辺機器

CVPR 2024 フルスコア論文: 浙江大学が、変形可能な 3 次元ガウス分布に基づく高品質な単眼動的再構成の新しい方法を提案

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 05, 2024 pm 03:58 PM

プロジェクト単眼のダイナミックなシーン

単眼ダイナミックシーンとは、単眼カメラを使用して観察および分析される、オブジェクトがシーン内で自由に移動できる動的環境を指します。単眼での動的なシーンの再構成は、環境の動的な変化の理解、物体の運動軌跡の予測、動的なデジタル資産の生成などのタスクにおいて非常に重要です。単眼視覚技術を使用すると、動的シーンの 3 次元再構成とモデル推定が実現され、動的環境におけるさまざまな状況をよりよく理解し、対処できるようになります。この技術はコンピュータビジョンの分野に応用できるだけでなく、自動運転、拡張現実、仮想現実などの分野でも重要な役割を果たします。単眼の動的なシーンの再構成を通じて、環境内のオブジェクトの動きをより正確に捉えることができます。

Neural Radiance Field (Neural Radiance Field、NeRF) に代表されるニューラルレンダリングの台頭により、ますます多くの研究が行われ始めました。動的シーンの 3D 再構築のための暗黙的表現。 D-NeRF、Nerfies、K-planes など、NeRF をベースにした代表的な作品は満足のいくレンダリング品質を実現していますが、真のフォトリアルなレンダリングにはまだ程遠いです。

浙江大学とバイトダンスの研究チームは、上記の問題の核心は、レイキャスティングに基づく NeRF パイプラインが逆流を通じて観測空間を観測空間にマッピングすることであると指摘しました。正規空間が使用される場合。逆マッピングは学習された構造の収束には理想的ではなく、その結果、現在の方法では D-NeRF データセットで 30 レベルの PSNR レンダリングインデックスしか達成できません。

この課題を解決するために、研究チームはラスタライズに基づいた単眼の動的シーンモデリングプロセスを提案しました。彼らは、変形フィールドと 3D ガウスを初めて組み合わせ、高品質の再構築と新しい透視レンダリングを可能にする新しい方法を作成しました。この研究論文「高忠実度単眼動的シーン再構成のための変形可能な 3D ガウシアン」が、コンピュータービジョン分野のトップ国際学会である CVPR 2024 に採択されました。この研究のユニークな点は、変形フィールドを 3D ガウスに適用して単眼の動的シーンに拡張する最初の研究であることです。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

プロジェクトのホームページ: https://ingra14m.github.io/Deformable-Gaussians/
論文リンク: https://arxiv.org/abs/2309.13101
コード: https://github.com/ingra14m/Deformable-3D-Gaussians

実験結果は、変形フィールドが正準空間の 3D ガウス順方向マッピングを観測空間に正確に効果的にマッピングできることを示しています。 D-NeRF データセットでは、10% 以上の PSNR 改善が達成されました。さらに、実際のシーンでは、カメラのポーズが十分に正確ではない場合でも、レンダリングの詳細を向上させることができます。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

# 図 1 ハイパーナーフの実際のシーンの実験結果。

関連作品

動的シーンの再構成は、3 次元再構成において常にホットな問題です。 NeRFに代表されるニューラルレンダリングが高品質なレンダリングを実現するにつれ、動的再構成の分野でも暗黙的表現に基づく一連の研究が登場している。 D-NeRF と Nerfies は、NeRF レイキャスティングパイプラインに基づいた変形フィールドを導入し、堅牢な動的なシーンの再構築を実現します。 TiNeuVox、K-Planes、および Hexplanes は、これに基づいてグリッド構造を導入し、モデルのトレーニングプロセスを大幅に高速化し、レンダリング速度を向上させます。ただし、これらの方法はすべて逆マッピングに基づいており、ゲージ空間と変形フィールドの高品質な分離を真に達成することはできません。

3D ガウススプラッシュは、ラスター化に基づいた点群レンダリングパイプラインです。 CUDA によってカスタマイズされた微分可能なガウスラスタライゼーションパイプラインと革新的な高密度化により、3D ガウスは SOTA レンダリング品質を実現するだけでなく、リアルタイムレンダリングも実現します。動的 3D ガウスは、まず静的 3D ガウスを動的フィールドに拡張します。ただし、マルチビューシーンのみを処理できるため、携帯電話での撮影などのシングルビューシーンなど、より一般的な状況での用途が大幅に制限されます。

研究思想

Deformable-GS の核心は、静的な 3D ガウスを単眼の動的なシーンに拡張することです。各 3D ガウスは、画像レベルのレンダリングのための位置、回転、スケール、不透明度、および SH 係数を保持します。 3D ガウスアルファブレンドの公式によれば、時間の経過に伴う位置、およびガウス形状を制御する回転とスケーリングが、動的な 3D ガウスを決定する決定的なパラメータであることを見つけるのは難しくありません。ただし、従来の点群ベースのレンダリング方法とは異なり、3D ガウスが初期化された後、位置や透明度などのパラメーターは最適化によって継続的に更新されます。これにより、動的ガウスの学習がさらに困難になります。 ###

この研究は、変形フィールドと 3D ガウスを組み合わせて最適化される動的シーンレンダリングフレームワークを革新的に提案します。具体的には、本研究では、COLMAP またはランダム点群によって初期化された 3D ガウスを正準空間として扱い、変形フィールドを使用して正準空間内の 3D ガウスの座標情報を入力として使用し、各 3D ガウスの位置と形状を予測します。時間の経過とともにパラメータが変化します。この研究では、変形フィールドを使用して、ラスター化されたレンダリングのために 3D ガウスを正準空間から観測空間に変換できます。この戦略は 3D ガウスの微分可能なラスタライゼーションパイプラインには影響せず、それによって計算された勾配を使用して正準空間 3D ガウスのパラメーターを更新できます。

さらに、変形フィールドの導入は、より大きな動作範囲を持つ部品のガウス密度化に有益です。これは、動きの振幅が大きい領域の変形場の勾配が相対的に高くなり、高密度化プロセス中に対応する領域がより細かく制御されるようになるためです。正準空間 3D ガウスの数と位置パラメータは初期段階では常に更新されますが、実験結果は、この統合最適化戦略が最終的には堅牢な収束結果を達成できることを示しています。約 20,000 回の反復の後、正準空間内の 3D ガウスの位置パラメータはほとんど変化しません。

研究チームは、実際のシーンでのカメラのポーズが十分に正確ではないことが多く、動的なシーンがこの問題をさらに悪化させることを発見しました。神経放射場は多層パーセプトロン (MLP) に基づいており、非常に滑らかな構造であるため、これは神経放射場に基づく構造に大きな影響を与えません。ただし、3D ガウスは点群の明示的な構造に基づいており、わずかに不正確なカメラのポーズをガウススプラッシュによって確実に修正することは困難です。

この問題を軽減するために、この研究ではアニーリングスムーズトレーニング (AST) を革新的に導入しました。このトレーニングメカニズムは、初期段階では 3D ガウシアンの学習をスムーズにし、後の段階ではレンダリングの詳細度を高めるように設計されています。この機構の導入により、レンダリングの品質が向上するだけでなく、時間補間タスクの安定性と滑らかさも大幅に向上します。

図 2 に本研究のパイプラインを示します. 詳細については論文の原文を参照してください。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

結果表示

この研究では、最初に、この分野で広く使用されている D-NeRF データセット上の合成データセットの実験を行いました。動的再構築の。図 3 の視覚化結果から、Deformable-GS では以前の方法と比較してレンダリング品質が大幅に向上していることがわかります。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

#＃図3 D-NERFデータセットに関するこの研究の定性的実験的比較結果。

この研究で提案された方法は、視覚効果の大幅な改善を達成するだけでなく、それに対応してレンダリングの定量的指標も改善します。研究チームがD-NeRFデータセットのレゴシーンにエラーを発見したことは注目に値します。つまり、トレーニングセットとテストセットのシーンにはわずかな違いがあります。これは、レゴモデルのシャベルのフリップ角度が一貫していないことに現れています。これは、レゴシーンで以前の方法の指標を改善できない根本的な理由でもあります。有意義な比較を可能にするために、この研究ではメトリクス測定のベースラインとしてレゴの検証セットを使用しました。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

図 4 合成データセットの定量的比較。

図 4 に示すように、この研究では、CVPR 2020 の D-NeRF、Sig Asia 2022 の TiNeuVox、CVPR2023 Tensor4D、K プレーンを含む SOTA メソッドをフル解像度 (800x800) で比較しました。。この研究で提案された方法は、さまざまなレンダリング指標 (PSNR、SSIM、LPIPS) およびさまざまなシナリオにおいて大幅な改善を達成しました。

この研究で提案された方法は、合成シーンに適用できるだけでなく、カメラのポーズが十分に正確ではない実際のシーンでも SOTA 結果を達成します。図 5 に示すように、この研究は NeRF-DS データセットに対する SOTA 手法と比較しています。実験の結果、本研究で提案した手法は、高光反射面に特別な処理を行わなくても、高光反射シーンに特化したNeRF-DSを上回り、最高の描写効果が得られることが分かりました。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

# 図図 5 実際のシーンの手法の比較。

MLP の導入によりレンダリングのオーバーヘッドは増加しますが、3D Gaussian の非常に効率的な CUDA 実装とコンパクトな MLP 構造のおかげで、依然としてリアルタイムレンダリングを実現できます。 3090 では、D-NeRF データセットの平均 FPS は 85 (400x400)、68 (800x800) に達します。

さらに、この研究では、前方および後方の深さ伝播を備えた微分可能ガウスラスタライゼーションパイプラインも初めて適用しました。図 6 に示すように、この深さは、Deformable-GS も堅牢な幾何学的表現を取得できることを証明しています。ディープバックプロパゲーションは、逆レンダリング (Inverse Rendering)、SLAM、自動運転など、将来的に深い監視を必要とする多くのタスクを促進する可能性があります。

# 図 6 深度の視覚化。

著者について

##論文の筆頭著者: Yang Ziyi、浙江大学修士課程 2 年生、彼の主な研究方向は 3 つあります。 -次元ガウス、神経放射場、リアルタイムレンダリングなど。

論文の他の著者: Gao Xinyu、浙江大学修士課程 3 年生、彼の主な研究方向は神経放射線場と暗黙的なシーンの組み合わせです。

Zhang Yuqing: 浙江大学修士課程 2 年私の主な研究方向は 3D 生成とリバースレンダリングです。

この論文の責任著者は、浙江大学コンピューター科学技術学部のJin Xiaogang教授です。

メール: jin@cad.zju.edu.cn

以上がCVPR 2024 フルスコア論文: 浙江大学が、変形可能な 3 次元ガウス分布に基づく高品質な単眼動的再構成の新しい方法を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

メモ帳++7.3.1

使いやすく無料のコードエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、