ホームページ >テクノロジー周辺機器 >AI >ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びます

ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びます

PHPz転載: 2023-04-29 20:10:081700ブラウズ

#プロジェクトのホームページ: https://scene-dreamer.github.io/
#コード: https://github.com/FrozenBurning/SceneDreamer
ペーパー: https://arxiv.org/abs/2302.01330
オンラインデモ: https://huggingface.co/spaces/FrozenBurning/SceneDreamer

メタバースにおける 3D クリエイティブツールの需要の高まりに応えるため、3D シーンの生成が最近大きな注目を集めています。 3D コンテンツ作成の中核は、2D 観察から 3D 表現を復元することを目的とした逆グラフィックスです。 3D アセットの作成に必要なコストと労力を考慮すると、3D コンテンツ作成の最終目標は、インターネット上の膨大な 2D 画像から 3D 生成モデルを学習することになります。 3D 知覚の生成モデルに関する最近の研究では、この問題にある程度対処しており、研究のほとんどは 2D 画像データを活用してオブジェクト中心のコンテンツ (顔、人体、オブジェクトなど) を生成しています。ただし、この種の生成タスクの観測空間は有限領域内にあり、生成されたターゲットは 3 次元空間の限られた領域を占めます。ここで疑問が生じます。膨大なインターネット 2D 画像から境界のないシーンの 3D 生成モデルを学習できるでしょうか?たとえば、広い範囲をカバーし、無限に拡張できる鮮やかな自然の風景です (下図を参照)。

ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びます

#この記事では、南洋理工大学

S-Lab の研究者が新しいフレームワーク SceneDreamer # # を提案しました# 、ラベルのない大量の自然画像から境界のない 3 次元シーンの生成モデルを学習することに重点を置いています。シーンノイズとスタイルノイズをサンプリングすることにより、SceneDreamer は、非常に高い 3 次元の一貫性を維持しながら、自然シーンの多様なスタイルをレンダリングすることができ、カメラがシーン内を自由に歩き回ることができます。このような目標を達成するには、次の 3 つの課題に直面します。

1) 境界のないシーンには効率的な 3 次元表現が欠けています: 境界がありません。シーンは多くの場合、任意の大きなユークリッド空間を占有するため、効率的で表現力豊かな基礎となる 3D 表現の重要性が強調されます。

2) コンテンツの位置合わせの欠如: 既存の 3D 生成作業では、位置合わせプロパティ (顔、人体、一般的なオブジェクトなど) を持つデータセットを使用します。シーンは通常、同様のセマンティクス、同様のスケール位置と方向を持ちます。ただし、ラベルのない大規模な 2D 画像では、さまざまなオブジェクトやシーンが非常に異なるセマンティクスを持ち、スケール、位置、向きが可変であることがよくあります。この調整の欠如により、生成モデルのトレーニングが不安定になる可能性があります。

3) カメラポーズ事前分布の欠如: 3D 生成モデルは、画像から 3D 表現への逆レンダリングプロセスを実装するために、正確なカメラポーズまたはカメラポーズ分布の事前分布に依存します。しかし、インターネット上の自然画像はさまざまなシーンや画像ソースからのものであるため、カメラのポーズに関する正確な情報や事前情報を取得することは不可能です。

この目的を達成するために、我々は原則に基づいた敵対的学習フレームワーク SceneDreamer を提案します。このフレームワークは、大量のラベルのない自然画像から無制限の 3 次元シーンを生成することを学習します。このフレームワークは 3 つの主要モジュールで構成されています: 1) 効率的で表現力豊かな鳥瞰図 (BEV) 3D シーン表現、2) シーンの普遍的な表現を学習する生成ニューラルハッシュグリッド、3) スタイル主導のボリュームレンダラー、トレーニングは、敵対的学習を通じて 2 次元画像から直接実行されます。

上図は、SceneDreamer の主な構造を示しています。推論プロセス中に、シーン構造を表すシンプレックスノイズワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びますとシーンスタイルを表すガウスノイズを入力としてランダムにサンプリングでき、モデルはレンダリングできます。カメラの自由な動きをサポートしながら、大規模な 3 次元シーンを実現します。まず、シーンノイズワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びますから高さマップとセマンティックマップで構成される BEV シーン表現を取得します。次に、BEV 表現を使用してローカル 3D シーンウィンドウを明示的に構築し、カメラサンプリングを実行すると同時に、BEV 表現をシーンの特徴ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びますにエンコードします。サンプリングポイントとシーンの特徴の座標を使用して、生成ニューラルハッシュグリッドによってエンコードされた高次元空間をクエリし、空間差分とシーン差分潜在力を取得します。変数ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びます #。最後に、スタイルノイズによって変調されたボリュームレンダラーを通じてカメラライトの潜在変数を統合し、最終的にレンダリングされた 2 次元画像を取得します。

境界のない 3D シーン生成を学ぶためには、シーンを効率的かつ高品質に表現することが望まれます。我々は、セマンティックマップとハイトマップからなるBEV表現を用いて大規模な3次元シーンを表現することを提案する。具体的には、シーンノイズからノンパラメトリックマップ構築手法により鳥瞰図のハイトマップとセマンティックマップを取得します。高さマップはシーン表面点の高さ情報を記録し、意味マップは対応する点の意味ラベルを記録します。私たちが使用する BEV 表現は、セマンティックマップと高さマップで構成されており、1) n^2 の複雑さで 3 次元シーンを表現でき、2) 3 次元の点に対応するセマンティクスを取得できるため、次のことを行うことができます。コンテンツの配置の問題。 3) 無限のシーンを合成するためのスライディングウィンドウの使用をサポートし、トレーニング中の固定シーン解像度によって引き起こされる汎化問題を回避します。

シーン間を一般化できる 3 次元表現をエンコードするには、敵対的学習のトレーニングを容易にするために、空間的な 3 次元シーン表現を潜在空間にエンコードする必要があります。大規模な境界のないシーンの場合、通常、レンダリングに意味があるのは表面の可視点だけであることに注意してください。これは、そのパラメトリックフォームがコンパクトでまばらである必要があることを意味します。トライプレーンまたは 3 次元畳み込みモデル空間全体などの既存の方法では、目に見えない表面点のモデリングに大量のモデル容量が浪費されます。 3D 再構成タスクにおけるニューラルハッシュグリッドの成功に触発され、空間的にコンパクトで効率的なその特性を生成タスクに一般化し、生成ニューラルハッシュグリッドを使用してシーン全体の 3D 空間特徴をモデル化することを提案します。具体的には、ハッシュ関数 F_theta を使用して、シーンの特徴 f_s と空間点座標 x をマルチスケール混合の学習可能なパラメーターにマッピングします。

ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びます

レンダリングの 3 次元の一貫性を確保するために、ボリュームレンダリングに基づいたレンダリングネットワークを使用して、3 次元空間の特徴を 2 次元画像にマッピングします。カメラライト上の点については、生成ハッシュグリッドをクエリして対応する特徴 f_x を取得し、スタイルノイズによって変調されたマルチレイヤー MLP を使用して、対応する点の色とボリューム密度を取得し、最後にボリュームレンダリングを使用して、 point カメラ光線上のすべての点は、対応するピクセルの色に統合されます。

ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びます

#フレームワーク全体は、敵対的学習を通じて 2D 画像上でエンドツーエンドで直接トレーニングされます。ジェネレーターは前述のボリュームレンダラーであり、ディスクリミネーターには、BEV 表現からカメラに投影されたセマンティックマップに基づいて実際の画像とレンダリングされた画像を区別するために、セマンティックを認識したディスクリミティブネットワークを使用します。詳細については、論文を参照してください。

トレーニングが完了すると、シーンノイズとスタイルノイズをランダムにサンプリングすることで、適切な深度情報と 3D 一貫性を備えたさまざまな 3D シーンを生成でき、自由なカメラ軌跡のレンダリングをサポートします。

ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びます

#スライディングウィンドウ推論モードを通じて、トレーニング空間解像度をはるかに超える超大型の境界のない画像を生成できます。シーン。以下の図は、トレーニング空間解像度が 10 倍で、シーンとスタイルの両方の次元でスムーズな補間が行われたシーンを示しています。

同様の補間スムーズトランジションの結果と同様に、フレームワークは分離モードをサポートしています。これは、補間のためにシーンまたはスタイルを個別に修正することで、潜在空間の意味論的な豊かさを反映します。

ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びます

私たちの方法の 3 次元の一貫性を検証するために、円形のカメラの軌跡を使用して任意のシーンをレンダリングし、COLMAP を 3 次元の再構成に再利用します。これにより、より良いシーンの点群と一致するカメラを取得できます。ポーズは、この方法が 3 次元の一貫性を確保しながらさまざまな 3 次元シーンを生成できることを示しています。

ワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びます

この作品は、大規模な 2D 画像から無制限の 3D シーンを生成するモデルである SceneDreamer を提案しています。 3D の一貫性を維持し、自由なカメラ軌道をサポートしながら、ノイズから多様な大規模 3D シーンを合成できます。私たちは、この作品がゲーム業界、仮想現実、メタバース生態学の新たな探求の方向性と可能性を提供できることを願っています。詳細についてはプロジェクトのホームページをご覧ください。

以上がワンクリックで山や川をさまざまなスタイルで生成し、2D 画像から無制限の 3D シーンを生成する方法を学びますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

github https

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：自動運転のための視覚認識技術ロードマップの簡単な分析次の記事：自動運転のための視覚認識技術ロードマップの簡単な分析

続きを見る