ホームページ >テクノロジー周辺機器 >AI >Transformer は 3D モデリングに革命をもたらし、MeshGPT 生成効果はプロのモデラーとネチズンに警告:革新的なアイデア
コンピューター グラフィックスの分野では、三角形メッシュは 3D 幾何学オブジェクトを表現する主な方法であり、ゲーム、映画、仮想現実インターフェイスで最も一般的に使用される 3D リソース表現方法でもあります。業界では通常、三角形メッシュを使用して、建物、車両、動物などの複雑なオブジェクトの表面をシミュレートします。同時に、一般的な幾何学的変換、ジオメトリ検出、レンダリング、シェーディング操作も三角形メッシュに基づいて実行する必要があります。
点群やボクセルなどの他の 3D 形状表現と比較すると、三角形メッシュは、より一貫した表面表現を提供します。より制御しやすく、操作が簡単で、よりコンパクトで、最新のレンダリング パイプラインに直接適用できるため、より少ないプリミティブでより高い視覚的品質を実現できます。
# 研究者らはこれまで、ボクセル、点群、ニューラル フィールドなどの表現方法を使用して 3D モデルを生成しようと試みてきました。これらの表現方法も、後処理を通じてメッシュに変換する必要があります。下流のアプリケーションで使用するには、これらの表現方法も必要です。マーチング キューブ アルゴリズムを使用した等値面処理など残念ながら、このアプローチでは過度に密なメッシュと過度に詳細なメッシュが生成され、過剰なスムージングや等値面化によって発生する凹凸エラーが頻繁に発生します。
3D モデリングの専門家によってモデリングされた 3D メッシュは、より少ない三角形でシャープなディテールを維持しながら、表現がよりコンパクトになります。
多くの研究者は、3D アセットの作成プロセスをさらに簡素化するために、三角形メッシュを自動的に生成するタスクを解決したいと長い間望んできました。
最近の論文で、研究者らは、メッシュ表現を三角形のセットとして直接生成する新しいソリューション MeshGPT を提案しました。
論文のリンクは、https://nihalsid.github.io/mesh-gpt/static/MeshGPT にあります。 pdf
Transformer 言語生成モデルに触発され、三角形メッシュを三角形シーケンスに合成する直接シーケンス生成方法を採用しました
パラダイムに従いますテキスト生成の際、研究者は最初に三角形の語彙を学習しました。三角形は潜在的な量子化埋め込みとしてエンコードされていました。学習された三角形の埋め込みが局所的な幾何学的および位相的特徴を保持することを促進するために、グラフ畳み込みエンコーダーを採用します。これらの三角形の埋め込みは、ResNet デコーダによってデコードされ、三角形を表すトークンのシーケンスが処理されて、三角形の頂点座標が生成されます。最後に、研究者らは学習した語彙に基づいて GPT ベースのアーキテクチャをトレーニングし、メッシュを表す一連の三角形を自動的に生成し、鮮明なエッジと高い忠実度という利点を実現しました。
ShapeNet データセットの複数のカテゴリにわたる実験により、MeshGPT は生成された 3D メッシュの品質を大幅に向上させることが示されました。 既存の技術と比較して、シェイプ カバレッジが平均 9 向上しました。 %、FID スコアは 30 ポイント改善されました。
MeshGPT は、ソーシャル メディア プラットフォームでも白熱した議論を巻き起こしています:
誰かがかつてこう言いました。これは本当に革命的なアイデアです。」
あるネチズンは、この方法のハイライトは、他の最大の障害を
克服できることだと指摘しました。 3D モデリングのアプローチに重要なのは、編集機能です。
#1990 年代以来解決されていないすべての問題は、おそらくトランスフォーマーからインスピレーションを得ている可能性があると大胆に予測する人もいます。
3D/映画制作関連業界に従事するユーザーの中には、自分のキャリアについて懸念を表明した人もいます:
ただし、論文に掲載されている生成例を見ると、この手法はまだ大規模な応用には至っていないという指摘もありました。プロのモデラーはこれらのメッシュを 5 分以内に作成できます
#このコメント投稿者は、次のステップは次のステップである可能性があると述べています。 LLM に 3D シードの生成を制御させ、アーキテクチャの自己回帰部分に画像モデルを追加する必要があります。このステップに到達すると、ゲームやその他のシーンの 3D アセットの制作を大規模に自動化できます。
次に、MeshGPT 論文の研究内容を見てみましょう。
大規模言語モデルの進歩に触発されて、研究者らは三角形メッシュを三角形として使用するシーケンスベースの手法を開発しました。シーケンスは自己回帰的に生成されます。この方法では、シャープなエッジと忠実度の高い、クリーンで一貫性のあるコンパクトなメッシュが生成されます。
研究者らは、三角形をエンコードおよびデコードできるようにするために、まず大きな 3D オブジェクト メッシュから幾何学的な語彙の埋め込みを学習しました。次に、学習された埋め込み語彙に基づいて、グリッド生成用の Transformer がインデックス予測のために自己回帰的な方法でトレーニングされます。
三角形の語彙を学習するために、研究者らは、グリッドの三角形とその近傍を操作するグラフ畳み込みエンコーダーを使用して、豊富な幾何学的特徴を抽出しました。 3D 形状の複雑な詳細をキャプチャします。これらの特徴は、残差量子化を通じてコードブックへの埋め込みとして量子化され、グリッド表現のシーケンス長を効果的に削減します。ソート後、これらの埋め込まれた情報は、再構成損失に基づいて 1 次元 ResNet によってデコードされます。この段階は、その後の Transformer トレーニングの基礎を築きます。
次に、研究者らはこれらの量子化された幾何学的埋め込みを使用して、GPT に似た純粋なデコーダ トランスフォーマをトレーニングしました。これは、メッシュ三角形内の幾何学的エンベディングのシーケンスを抽出し、シーケンス内の次のエンベディングのコードブック インデックスを予測するようにトランスフォーマーをトレーニングすることによってこれを行います。
トレーニング後、トランスフォーマーは自己回帰的にサンプリングして、埋め込みシーケンスを予測し、これらの埋め込みをデコードして、人間が描いたメッシュに似た効率的で不規則な三角形を示す斬新で多様なメッシュ構造を生成します。
#MeshGPT は、グラフ畳み込みエンコーダを使用してメッシュ サーフェスを処理し、幾何学的近傍情報を使用して 3D をキャプチャして表現します。複雑な形状の詳細の強い特徴は、残差量子化方法を使用してコードブック埋め込みに量子化されます。このアプローチにより、単純なベクトル量子化と比較して、より優れた再構成品質が保証されます。 MeshGPT は、再構成損失に基づいて、ResNet 経由で量子化された埋め込みをソートし、デコードします。
この調査では、Transformer モデルを使用して、事前トレーニングされたコードブック語彙ライブラリからトークン インデックスとしてグリッド シーケンスを生成します。トレーニング中に、画像エンコーダーはメッシュ サーフェスから特徴を抽出し、それらを一連のサーフェス エンベディングに量子化します。これらの埋め込みはタイル化され、開始トークンと終了トークンでマークされてから、上記の GPT タイプの Transformer モデルに供給されます。デコーダはクロスエントロピー損失を使用して最適化され、各埋め込みの後続のコードブック インデックスを予測します。
この研究では、MeshGPT と共通の比較実験は、次のようなメッシュ生成方法で実施されました。
BSPNet は凸分解によるメッシュを表し、図 6、図 7、表 1 に示すように、MeshGPT は 4 つのカテゴリすべてでベースライン手法を上回っています。 MeshGPT は、より細かい幾何学的詳細を備えたシャープでコンパクトなメッシュを生成できます。
具体的には、Polygen と比較して、MeshGPT はより複雑な詳細を含む形状を生成でき、Polygen は推論プロセス中にエラーが蓄積する可能性が高くなります。AtlasNet は折り畳みアーティファクトに悩まされることがよくあります)。多様性が低く、形状品質が低い; 平面 BSP ツリーを使用する BSPNet は、異常な三角形分割パターンを持つブロック状の形状を生成する傾向があります; GET3D は、優れた高レベルの形状構造を生成しますが、三角形が多すぎて不完全な平面があります。 ###############################################に示すように表 2 に示すように、この研究ではユーザーが MeshGPT によって生成されたメッシュの品質を評価することもでき、MeshGPT は形状と三角形分割の品質の点で AtlasNet、Polygen、BSPNet を大幅に上回りました。ほとんどのユーザーは、GET3D よりも MeshGPT によって生成された形状品質 (68%) と三角形分割品質 (73%) を好みました。
#書き換えられた内容は次のとおりです: 新しい形状。図 8 に示すように、MeshGPT はトレーニング データセットを超えた新しい形状を生成でき、モデルが単に既存の形状を取得する以上のことを行うことができます。
形状の完成。以下の図 9 に示すように、MeshGPT は、指定されたローカル形状に基づいて複数の可能な補完を推測し、複数の形状仮説を生成することもできます。
以上がTransformer は 3D モデリングに革命をもたらし、MeshGPT 生成効果はプロのモデラーとネチズンに警告:革新的なアイデアの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。