ホームページ >テクノロジー周辺機器 >AI >3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。

3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。

WBOY
WBOY転載
2023-06-09 20:22:03669ブラウズ

3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。

#多様かつ高品質な 3 次元シーン生成結果

  • 論文アドレス: https://arxiv.org/abs/2304.12670
  • ## プロジェクトのホームページ: http://weiyuli.xyz/Sin3DGen/
  • はじめに

人工知能支援コンテンツ生成 (AIGC) を使用して、初期の変分オートエンコーダー (VAE) から画像生成の分野で大量の仕事が生まれました。 )、生成へ 敵対的ネットワーク (GAN) から最近人気の拡散モデル (Diffusion Model) に至るまで、モデル生成機能は急速に向上しました。 Stable Diffusion、Midjourneyなどに代表されるモデルは、リアリティの高い画像を生成する上で前例のない成果を上げています。一方で、ビデオ生成の分野では、最近、Runway の生成モデルなど、想像力豊かなビデオ クリップを生成できる優れた作品が数多く登場しています。これらのアプリケーションにより、コンテンツ作成の敷居が大幅に下がり、誰もが思いついたアイデアを簡単に現実化できるようになりました。

しかし、コンテンツを扱うメディアがますます豊富になるにつれて、人々は写真、テキスト、ビデオなどの 2 次元グラフィック コンテンツでは満足できなくなりました。インタラクティブな電子ゲーム技術の継続的な発展、特に仮想現実や拡張現実などのアプリケーションが徐々に成熟するにつれて、人々は 3 次元の視点からシーンやオブジェクトと対話することをますます望んでおり、これが 3 次元コンテンツの必要性をもたらしています。より大きな要求を生み出します。

微細な幾何学的構造と非常にリアルな外観を備えた高品質の 3 次元コンテンツを迅速に生成する方法は、コンピュータ グラフィックス コミュニティの研究者によって常に検討されている重要な問題です。コンピューターによる 3 次元コンテンツのインテリジェントな生成は、実際の制作アプリケーションでのゲーム、映画、テレビ制作における重要なデジタル資産の制作を支援し、アート制作担当者の開発時間を大幅に短縮し、資産取得コストを大幅に削減し、制作期間を短縮します。全体的な制作 このサイクルは、ユーザーが何千ものパーソナライズされた視覚体験をもたらす技術的な可能性も提供します。一般ユーザーにとって、デスクトップ 3D プリンターなどのアプリケーションと組み合わせた、高速で便利な 3D コンテンツ作成ツールの出現は、将来、一般消費者のエンターテイメント ライフにさらに無限の想像力をもたらすでしょう。

現在、一般ユーザーはポータブルカメラなどのデバイスを介して画像やビデオなどの二次元コンテンツを簡単に作成したり、三次元シーンのモデリングやスキャンを行うこともできますが、一般的に、高品質の 3D コンテンツを作成するには、多くの場合、3ds Max、Maya、Blender などのソフトウェアを使用して、経験豊富な専門家による手動のモデリングとレンダリングが必要になりますが、これらには高い学習コストと急な成長曲線が伴います。

主な理由の 1 つは、幾何学モデル、テクスチャ マップ、キャラクター スケルトン アニメーションなどの 3 次元コンテンツの表現が非常に複雑であることです。幾何学的表現といっても、点群、ボクセル、メッシュなどさまざまな形があります。 3 次元表現の複雑さは、その後のデータ取得とアルゴリズム設計を大きく制限します。

一方で、3D データは当然ながら希少であり、データ取得コストが高く、高価な機器や複雑な取得プロセスが必要となることが多く、大量のデータを収集することが困難です。統一フォーマットの3Dデータの数。これにより、ほとんどのデータ駆動型の深層生成モデルの使用が困難になります。

アルゴリズム レベルでは、収集した 3 次元データをどのように計算モデルに入力するかという問題も解決が困難です。 3 次元データ処理の計算能力のオーバーヘッドは、2 次元データのオーバーヘッドよりも指数関数的に高くなります。 2 次元の生成アルゴリズムを 3 次元に急激に拡張することは、最先端の並列計算プロセッサでも許容可能な時間内に処理することは困難です。

上記の理由により、現在の 3D コンテンツ生成作業のほとんどは特定のカテゴリに限定されているか、低解像度のコンテンツしか生成できないため、実際の制作プロセスに適用することが困難になっています。

上記の問題を解決するために、

北京大学の陳宝泉氏のチームは、山東大学およびテンセント AI 研究所の研究者と協力して、最初の単一サンプル シナリオを提案しました。トレーニングなしで、さまざまな高品質 3D シーンを生成できるメソッド。このアルゴリズムには次の利点があります:

1. 大規模な同様の学習データや長期間の学習を必要とせず、必要なデータのみを使用して高品質な 3 次元シーンを迅速に生成できます。単一のサンプル;

2、神経放射場に基づくプレノセルを 3 次元表現として使用することで、シーンは非常に現実的な外観を持ち、フォトリアリスティックなマルチビュー画像をレンダリングできます。生成されたシーンは、見る角度によって変化する水面の反射効果など、サンプルの特徴をすべて完璧に保持しており、さまざまなアプリケーション制作をサポートします。 3 次元シーンの編集、サイズのリダイレクト、シーン構造の類似、シーンの外観の変更などのシナリオ。

手法の紹介

研究者らは、以下の図に示すように、マルチスケールの漸進的生成フレームワークを提案しました。このアルゴリズムの中心的な考え方は、サンプル シーンを複数のブロックに分解し、ガウス ノイズを導入し、ブロックを構成するのと同様の方法でそれらを同様の新しいシーンに再組み立てすることです。

作者は、サンプルと異種の表現である座標マッピングフィールドを使用して生成されたシーンを表現し、高品質な生成を実現しています。アルゴリズムの最適化プロセスをより堅牢にするために、この研究では値と座標の混合に基づく最適化方法も提案します。同時に、3 次元計算における大量のリソース消費の問題を解決するために、この研究では、正確から近似までの最適化戦略を使用します。これにより、トレーニングなしで高品質の新しいシーンを数分で生成できます。技術的な詳細については、元の論文を参照してください。

#ランダム シーンの生成


3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。

#左側のボックス内のような 1 つの 3D サンプル シーンを使用すると、複雑なジオメトリとリアルな外観を持つ新しいシーンを迅速に生成できます。この方法は、サボテン、アーチ、石のベンチなどの複雑なトポロジーを持つオブジェクトを処理でき、生成されたシーンはサンプル シーンの微細なジオメトリと高品質な外観を完全に保持します。ニューラル ネットワークに基づく現在の生成モデルは、同様の品質と多様性を実現していません。


#高解像度の大規模シーンの生成

この方法では、非常に高解像度の大きなシーンを効率的に生成できます。 3D コンテンツ。上に示したように、解像度 512 x 512 x の 3 次元の「千マイルの川と山」の 1 つの部分を入力することで、1328 x 512 x 200 の解像度の「千マイルの川と山」の部分を生成できます。左上隅に 200 を設定し、4096 x 1024 の高解像度の 2D マルチビュー画像をレンダリングします。 #現実世界のボーダレス シーンの生成

# #また、提案した生成手法を実際の自然シーンで検証しました。 NeRFと同様の処理手法を採用することで、前景と空などの背景を明示的に分離し、前景コンテンツを個別に生成した上で、現実世界のボーダレスシーンに新たなシーンを生成することができます。

3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。その他のアプリケーション シナリオ

シナリオ編集

#同じ生成アルゴリズムのフレームワークを使用して、人為的に指定された制限を追加することで、3 次元シーン内のオブジェクトの削除、コピー、変更などの編集操作を行うことができます。実行される。写真のように、山をシーンから削除して自動的に穴を埋めたり、複製して 3 つの山を作成したり、山を大きくしたりすることができます。

3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。サイズ リダイレクト

この方法では、ローカル形状を維持しながら 3 次元オブジェクトを伸縮したり圧縮したりすることもできます。画像の緑色のフレームは元のサンプル シーンを示しており、ウィンドウのローカル サイズを維持しながら 3 次元の列車を引き延ばしています。

構造アナロジーの生成


3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。

#画像スタイルの転送と同様に、2 つのシーン A と B が与えられた場合、A の外観と幾何学的特徴を持ち、B と同様の構造を持つ新しいシーンを作成できます。たとえば、雪山を参照して、別の山を立体的な雪山に変えることができます。

#サンプル シーンを変更します

3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。

##理由は、この方法では、生成されるシーンに異質な表現が採用されており、マッピングされたサンプル シーンを変更するだけで、より多様な新しいシーンを生成できます。たとえば、生成された同じシーン マッピング フィールド S を使用して、異なる時間または季節のシーンをマッピングすることにより、より豊富な生成結果を得ることができます。

概要

この研究は 3 次元コンテンツ生成の分野を対象としており、単一サンプルに基づいた 3 次元自然シーン生成モデルを提案しています。現在の 3 次元生成方法には、大量のデータ要件、高い計算能力オーバーヘッド、低生成品質などの問題が存在します。この作品は、意味情報が弱い、より一般的な自然シーンに焦点を当てており、生成されるコンテンツの多様性と品質にさらに注意を払っています。このアルゴリズムは主に従来のコンピュータ グラフィックスにおけるテクスチャ画像生成に関連する技術からインスピレーションを得ており、最近の神経放射線分野と組み合わせることで、高品質の 3 次元シーンを迅速に生成でき、さまざまな実用化が実証されています。

今後の展望

この作品は高い汎用性を持っており、現在のニューラル表現と組み合わせるだけでなく、ポリゴンなどの従来のレンダリング パイプラインの幾何学的表現にも適しています。メッシュ、メッシュ。私たちは大規模なデータとモデルに重点を置きますが、従来のグラフィック ツールも時々見直す必要があります。研究者らは、近い将来、3D AIGC の分野で、従来のグラフィック ツールと高品質のニューラル表現および強力な生成モデルが組み合わされて、より輝かしい輝きを生み出し、3D コンテンツ生成の品質と速度がさらに促進され、人々の創造性が解放されると考えています。 。

この研究は大多数のネチズンによって議論されています:

一部のネチズンは次のように述べています: (この研究は) ゲーム開発に非常に適しています。 1 つのモデルをモデル化するだけで、多数の新しいバージョンを生成できます。

3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。

上記の観点に全面的に同意する人もいます。ゲーム開発者、個人、中小企業は、この種の考え方から学ぶことができます。モデル。サポートを受けます。

3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。

#

以上が3D シーンの生成: ニューラル ネットワークのトレーニングを行わずに、単一のサンプルから多様な結果を生成します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。