本ウェブサイトのAIxivコラムは、学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。
3D 生成モデリングの研究分野では、現在の 2 つの主要カテゴリの 3D 表現方法は、フィッティング機能が不十分な暗黙的なデコーダーに基づいているか、明確に定義された空間構造が欠如しており、主流の 3D と統合することが困難です。普及技術。中国科学技術大学、清華大学、マイクロソフト リサーチ アジアの研究者は、強力なフィッティング機能を備えた明示的に構造化された 3D 表現である GaussianCube を提案し、現在の主流の 3D 拡散モデルにシームレスに適用できます。 GaussianCube は、固定数の空きガウスを確実に使用しながら 3D アセットの高精度フィッティングを可能にする、新しい密度制約ガウス フィッティング アルゴリズムから始まります。これらのガウスは、最適なトランスポート アルゴリズムを使用して、事前定義されたボクセル グリッドに再配置されます。 GaussianCube の構造的特徴のおかげで、研究者は複雑なネットワーク設計を行わずに、標準 3D U-Net を拡散モデリングのバックボーン ネットワークとして直接適用できます。 さらに重要なことは、この記事で提案されている新しいフィッティング アルゴリズムは、3D 表現のフィッティング品質が同等である場合、必要なパラメータの数が従来の構造化表現に必要なパラメータの 10 分の 1 だけであることです。またはパラメータ量の 100 分の 1。このコンパクトさにより、3D 生成モデリングの複雑さが大幅に軽減されます。研究者たちは、無条件および条件付きの 3D オブジェクトの生成、デジタル アバターの作成、およびテキストから 3D コンテンツへの合成に関する広範な実験を行ってきました。 数値結果は、GaussianCube が以前のベースライン アルゴリズムと比較して最大 74% のパフォーマンス向上を達成していることを示しています。以下に示すように、GaussianCube は高品質の 3D アセットを生成できるだけでなく、非常に魅力的な視覚効果を提供し、3D 生成の汎用表現としての大きな可能性を十分に発揮します。図 1. 無条件に生成された結果。この記事の方法では、高品質で多様な 3D モデルを生成できます。入 図 2. 入力ポートレートに基づいてデジタル化体を作成した結果。この記事の方法では、入力ポートレートのアイデンティティ特徴情報を大幅に保持し、詳細な髪型と服装のモデリングを提供できます。入 図 3. 入力テキストに基づいて 3D アセットを作成した結果。この記事の方法では、テキスト情報と一致した結果を出力でき、複雑な幾何学的構造や詳細な材質をモデル化できます。図 4. カテゴリ条件によって生成された結果。この記事で生成された 3D アセットは、明確なセマンティクスと高品質の幾何学的構造とマテリアルを備えています。
- 論文名: GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling
- プロジェクトホームページ: https://gaussiancube.github.io/
- 論文リンク: https://arxiv.org/ pdf/2403.19655
- コードオープンソース: https://github.com/GaussianCube/GaussianCube
- デモビデオ: https://www.bilibili.com/video/BV1zy411h7wB/
3D ジェネレーティブ モデリングに従来の NeRF をまだ使用しているのは何歳ですか? これまでのほとんどの 3D 生成モデリング作業では、基礎となる 3D 表現として Neural Radiance Field (NeRF) のバリアントが使用されており、これは通常、明示的な構造化特徴表現と暗黙的な特徴デコーダーを組み合わせています。ただし、3D 生成モデリングでは、すべての 3D オブジェクトが同じ暗黙的な特徴デコーダーを共有する必要があるため、NeRF のフィッティング能力が大幅に弱まります。さらに、NeRF が依存するボリューム レンダリング テクノロジは計算の複雑さが非常に高いため、レンダリング速度が遅くなり、GPU メモリの消費量が非常に多くなります。最近、別の三次元表現手法である 3D ガウス スプラッティング (3DGS) が注目を集めています。 3DGS は強力なフィッティング機能、効率的なコンピューティング パフォーマンス、および完全に明示的な機能を備えているため、3 次元再構成タスクで広く使用されています。ただし、3DGS には明確に定義された空間構造がないため、現在の主流の生成モデリング フレームワークに直接適用することができません。
そこで、研究チームはGaussianCubeを提案しました。これは、強力なフィッティング機能を備えた、構造化され完全に明示的な革新的な 3 次元表現方法です。この記事で紹介する方法では、まず固定数の自由ガウスを使用して高精度のフィットを保証し、次にこれらのガウスを構造化されたボクセル グリッドに効率的に編成します。この明示的かつ構造化された表現により、研究者は、非構造化または暗黙的にデコードされた表現を使用する場合に必要となる複雑でカスタマイズされたネットワークを必要とせずに、U-Net などの標準 3D ネットワーク アーキテクチャをシームレスに採用できます。 同時に、最適な伝送アルゴリズムによる構造化された組織化により、隣接するガウス カーネル間の空間構造関係が最大限に維持され、研究者は古典的な 3D 畳み込みネットワークのみを使用して特徴を効率的に抽出できます。さらに重要なことは、高次元データ分布を扱う場合、拡散モデルのパフォーマンスが低いという以前の研究の結果を考慮すると、この論文で提案された GaussianCube は、高品質の再構成を維持しながら必要なパラメータの量を大幅に削減し、問題を大幅に軽減することです。これにより、分布モデリングに対する拡散モデルの圧力が排除され、3D 生成モデリングの分野に大幅なモデリング機能と効率の向上がもたらされます。 GaussianCube フレームワークの概要
この記事のフレームワークは次のとおりです。 2 つの主要な段階: 表現の構築と 3 次元の拡散。表現構築フェーズでは、3D アセットのマルチビュー レンダリングが与えられると、密度制約付きガウス フィッティングが実行され、固定数の 3D ガウスが取得されます。続いて、最適化された転送により、3 次元ガウスが GaussianCube に構造化されます。 3D 拡散段階では、研究者らはガウス ノイズから GaussianCube を生成するために 3D 拡散モデルをトレーニングしました。 研究者は次のことを行う必要があります。生成モデリングに適した各 3D アセットの表現を作成します。生成フィールドではモデル化されたデータが均一な固定長であることが必要になることが多いことを考慮すると、元の 3DGS フィッティング アルゴリズムの適応密度制御では、さまざまなオブジェクトをフィッティングするために使用されるガウス カーネルの数が異なることになり、生成モデリングに大きな課題が生じます。非常に簡単な解決策は、単に適応密度制御を削除することですが、研究者らは、これによりフィッティングの精度が大幅に低下することを発見しました。本論文では、元の適応密度制御における枝刈り操作を保持しつつ、分割および複製操作に対して新しい制約処理を実行する、新しい密度制約フィッティング アルゴリズムを提案します。 ガウスが含まれていると仮定すると、研究者は、視点空間位置での勾配の大きさが事前定義されたしきい値 τ を超えるガウスを選択することによって、分割またはクローン操作の候補を特定します。これらの候補の数は、次のようにマークされます。 ガウスを超えないように、最大の視点空間位置勾配を持つガウスが分割または複製の候補から選択されます。フィッティングプロセスが完了した後、研究者らはレンダリング結果に影響を与えることなく目標数
を達成するために、α=0 のガウス分布を埋め込みました。この戦略のおかげで、同様の品質の既存の作品と比較して数桁少ないパラメータで高品質の表現を実現でき、拡散モデルのモデリングの難易度が大幅に軽減されます。 上記のフィッティングアルゴリズムを通じて得られたガウスはまだ明確な空間配置構造を持っていないため、後続の拡散モデルを効率的に行うことができません。データをモデル化します。この目的を達成するために、研究者らはガウスを事前定義された構造化ボクセル グリッドにマッピングして、ガウスに明確な空間構造を持たせることを提案しました。直観的に言えば、このステップの目標は、ガウスの空間的隣接性を可能な限り維持しながら、各ガウスをボクセルに「移動」することです。
研究者らは、これを最適伝送問題としてモデル化し、Jonker-Volgenant アルゴリズムを使用して対応するマッピング関係を取得し、最適伝送解に従ってガウスを対応するボクセルに編成して GaussianCube を取得し、位置を置き換えます。元のガウスの現在のボクセル中心のオフセットを使用して、拡散モデルの解空間を縮小します。最終的な GaussianCube 表現は構造化されるだけでなく、隣接するガウス間の構造的関係を最大限に維持するため、3D 生成モデリングの効率的な特徴抽出を強力にサポートします。
3 次元拡散段階では、この記事では 3 次元拡散モデルを使用して GaussianCube の分布をモデル化します。 GaussianCube の空間的に構造化された組織のおかげで、複雑なネットワークやトレーニング設計を必要とせずに、標準の 3D 畳み込みだけで、隣接するガウスの特徴を効果的に抽出して集約するのに十分です。したがって、研究者らは標準的な U-Net ネットワークの普及を利用し、元の 2D オペレータ (畳み込み、アテンション、アップサンプリング、ダウンサンプリングを含む) を 3D 実装に直接置き換えました。
この記事の 3 次元拡散モデルは、カテゴリ ラベル条件の生成、画像条件に基づいたデジタル アバターの作成、および画像条件に基づいた 3 次元デジタル アセットの生成など、生成プロセスを制御するためのさまざまな条件信号もサポートしています。文章。マルチモーダル条件に基づく生成機能により、モデルの適用範囲が大幅に拡大され、将来の 3D コンテンツ作成のための強力なツールが提供されます。 実験結果研究者らはまず、ShapeNet Car データセットに対する GaussianCube のフィッティング能力を検証しました。実験結果は、ベースライン手法と比較して、GaussianCube が最も高速かつ最小限のパラメータで高精度の 3 次元オブジェクトのフィッティングを実現できることを示しています。 表 1. 空間構造、フィッティング品質、相対フィッティング速度、使用されるパラメーターの量に関する、ShapeNet Car 上のさまざまな 3 次元表現の数値比較。 ∗ は、異なるオブジェクトが暗黙的な特徴デコーダーを共有することを示します。すべてのメソッドは 30,000 回の反復で評価されます。図 8. ShapeNet Car 上のさまざまな 3D 表現のフィッティング機能の視覚的な比較。 * は、異なるオブジェクトが暗黙的な特徴デコーダーを共有することを示します。すべてのメソッドは 30,000 回の反復で評価されます。
その後、研究者らは、ShapeNet、OmniObject3D、合成デジタル アバター データ セット、Objaverse データ セットを含む多数のデータ セットで GaussianCube ベースの拡散モデルの生成能力を検証しました。実験結果は、私たちのモデルが、無条件およびカテゴリ条件付きのオブジェクト生成、デジタル アバターの作成、およびテキストから 3D への合成において、数値メトリクスからビジュアル品質に至るまで、優れた結果を達成していることを示しています。特に、GaussianCube は、以前のベースライン アルゴリズムと比較して最大 74% のパフォーマンス向上を達成しました。
表 2. ShapeNet Car、Chair、および OmniObject3 のカテゴリ条件付き生成の定量的比較D. ️図 9. ShapeNet Car での無条件生成の定性的比較、議長。この記事の方法では、正確なジオメトリと詳細なマテリアルを生成できます。図 10. OmniObject3D でのカテゴリ条件生成の定性的比較。このメソッドは、明確なセマンティクスを持つ複雑なオブジェクトを生成できます。 図 11. 入力ポートレートに基づくデジタル アバター作成の定性的比較。この記事の方法では、入力ポートレートのアイデンティティの特徴、表情、アクセサリー、髪の詳細をより正確に復元できます。 表 4. 入力テキストに基づいた 3D アセットの作成の定量的な比較。推論時間は、単一の A100 を使用してテストされました。 Shap-E と LGM は、この記事の方法と同様の CLIP スコアを達成しましたが、それぞれ数百万のトレーニング データ (この記事ではトレーニングに 100,000 の 3 次元データのみを使用しました) と、以前の 2 次元ビンセント グラフ拡散モデルを使用しました。図 12. 入力テキストに基づいた 3D アセットの作成の定性的比較。この記事の方法では、入力テキストに基づいて高品質の 3D アセットを生成できます。 以上が高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回りますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。