ホームページ >テクノロジー周辺機器 >AI >SORAの3Dバージョンが登場！ DreamTech が世界初のネイティブ 3D-DiT 大型モデルである Direct3D を発売

SORAの3Dバージョンが登場！ DreamTech が世界初のネイティブ 3D-DiT 大型モデルである Direct3D を発売

王林オリジナル: 2024-06-18 09:57:211173ブラウズ

2024 年 5 月、DreamTech は高品質 3D 生成大型モデル Direct3D を正式に発表し、関連する学術論文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer を出版しました。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

リンク: https://arxiv.org/abs/2405.14832

これは、3D 拡散トランス (3D-DiT) を使用して、ネイティブ 3D 生成されたルートの最初に公開された 3D 大型モデルです。これにより、業界を長年悩ませてきた高品質の 3D コンテンツ生成の問題が解決されます。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

ネイティブ 3D テクノロジールートを堅持し、ブレークスルーを達成する

以前、3D AIGC で通常採用されていたテクノロジールートは 2D から 3D へのリフティングであり、これは、取得する 2D 画像モデルをアップグレードすることを意味します。初期のソリューションには、Google が提案した DreamFusion に代表される Score Distillation Sampling (SDS) と、Adobe が提案した Instant3D に代表される Large Reconstruction Model (LRM) が含まれます。品質を向上させるために 3D データが徐々にモデルトレーニングプロセスに導入されていますが、2D 次元強化テクノロジには、複数の頭と顔、空洞、オクルージョンなどの固有の問題があります。既存のソリューションでは、一般的な 3D 生成の商用アプリケーションの要件を満たすことが困難です。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

昨年の初めに、業界の一部の人々がネイティブ 3D ルート、つまり中間のマルチビュー 2D 画像やマルチビューの反復最適化を経ずに 3D モデルを直接取得することを試み始めました。技術的なルートは、2D 次元拡張の欠点を回避し、高品質で歪みのない不完全な商用利用可能な 3D コンテンツを取得できる可能性を示します。原則として、ネイティブ 3D ルートは 2D 次元強化手法に比べて大きな利点がありますが、モデルのトレーニングとアルゴリズム開発には常に多くの課題があります:

効率的な 3D モデル表現: 画像。また、ビデオは 2D/2.5D マトリックス表現圧縮を通じて潜在的な特徴を直接取得できます。これとは対照的に、3D データは複雑なトポロジーとより高い表現次元を持っています。 3D データを効率的に圧縮し、3D 潜在空間における 3D データの分布を分析および学習する方法は、業界関係者を常に悩ませている問題です。
効率的な 3D トレーニングアーキテクチャ: DiT アーキテクチャは最初に画像生成の分野に適用され、Stable Diffusion 3 (SD3) や Hunyuan-DiT などの大きな成功を収めました。ビデオ生成の分野では、OpenAI SORA が使用しています。 DiT アーキテクチャは、Runway や Pika をはるかに超えるビデオ生成効果を達成することに成功しました。3D 生成の分野では、複雑なトポロジと 3 次元表現方法によって制限され、オリジナルの DiT アーキテクチャを 3D メッシュ生成に直接適用することはできません。
高品質の大規模 3D トレーニングデータ: 3D トレーニングデータの品質と規模は、生成されるモデルの品質と一般化能力を直接決定します。業界では一般的に、少なくとも数千万のデータがあると考えられています。高品質の 3D トレーニングデータが必要です。3D 大規模モデルのトレーニング要件を満たす必要があります。しかし、3D データは世界中で非常に不足しており、ObjaverseXL などの 3D 学習データセットは数千万件存在しますが、そのほとんどは低品質の単純な構造であり、利用可能な高品質の 3D データは 5 % 未満です。。高品質の3Dデータを十分な量入手する方法は世界的な課題となっています。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

上記の中核問題に対応して、DreamTech は世界初のネイティブ 3D-DiT 大型モデル Direct3D を提案しました。広範な実験検証を通じて、Direct3D の 3D モデル生成品質は、現在主流の 2D 次元方式を大幅に上回っています。これには、主に次の 3 点のメリットがあります:

D3D-VAE: Direct3D は、OpenAI SORA VAE と同様の 3D モデルを提案します。 (変分自動エンコーダ) は、3D データの潜在的な特徴を抽出するために使用され、3D データの表現の複雑さを元の N^3 から n^2 (n
D3D-DiT: Direct3D は DiT アーキテクチャを採用し、元の DiT を改善および最適化しています。これにより、入力画像に対してセマンティックレベルおよびピクセルレベルの位置合わせモジュールが導入され、出力モデルと任意の入力画像の高度な位置合わせを実現できます。。
DreamTech 3D データエンジン: Direct3D は、トレーニングで大量の高品質 3D データを使用します。そのほとんどは、DreamTech が自社開発したデータ合成エンジンによって生成されます。 DreamTech 合成エンジンは、データクリーニングやアノテーションなどの完全自動データ処理プロセスを確立し、2,000 万を超える高品質 3D データを蓄積および生成し、ネイティブ 3D アルゴリズムの実装に向けたパズルの最後のピースを完成させました。 OpenAIが2023年のShap-EとPoint-Eのトレーニングプロセスで数百万の3D合成データの使用を試みたことは言及する価値があります。OpenAIのデータ合成ソリューションと比較して、DreamTechによって合成された3Dデータは規模が大きく、高品質です。

DiT アーキテクチャの採用

3D 分野でスケーリング則が再度検証されました

技術アーキテクチャの観点から見ると、Direct3D は OpenAI SORA に似た Diffusion Transformer (DiT) を使用しています。 DiT アーキテクチャは、現在最も先進的な AIGC 大規模モデルアーキテクチャであり、Diffusion と Transformer の 2 つの主要なアーキテクチャの利点を組み合わせて、スケーラビリティの要件を満たすことができます。つまり、より多くのデータとより大きな DiT パラメータをモデルに提供します。人間の生成品質を達成、あるいはそれを超える可能性さえあります。 DiT テクノロジーの現在の実用的なプロジェクトには、Stable Diffusion 3 (Stablility AI、2024 年 2 月)、画像生成の方向の Hunyuan-DiT (Tencent、2024 年 5 月)、およびビデオ生成の方向の SORA (OpenAI、2024 年 2 月) が含まれます。 , DreamTech の Direct3D は、3D コンテンツ生成の方向での世界初の公開 DiT 実践です。

DiT アーキテクチャはスケーリング則に準拠しており、スケーリング則として何度も検証されています。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

スケーリング則は、大規模な言語モデルでその有効性が完全に証明されており、パラメータとトレーニングデータの数が増加するにつれて、SD1 のパラメータから大規模なモデルのインテリジェンスが大幅に向上します。 SORA のサイズは SD3 の 0.8B から 8B であり、Dall-E 3 のパラメータサイズは 12B であり、Runway、Pika などと比較して、ビデオ生成の分野におけるスケーリング則の有効性を示しています。技術的な実装には主にモデルアーキテクチャの変更が含まれており、モデルパラメータとトレーニングデータが桁違いに改善され、ビデオ解像度、ビデオの長さ、またはビデオのいずれにおいても衝撃的な生成効果が実証されたと推測されています。世代の品質が大幅に向上しました。

同じことが 3D 分野にも当てはまります。Direct3D-1B は、業界初の実現可能なネイティブ 3D-DiT アーキテクチャを示し、トレーニングデータとモデルの量を増やします。結果を生成するパラメータが着実に改善され、将来の 3D 生成分野は、Direct3D (またはその派生アーキテクチャ) の既存の LRM または SDS ソリューションに完全に置き換えられるでしょう。現在、DreamTech チームは Direct3D のスケールアップを着実に推進しており、年末までに 15B パラメーターの Direct3D-XL をリリースする予定であり、同時にトレーニングモデル用の高品質 3D データをさらに増やす予定です。 3D 生成は画期的な瞬間を迎えます。

3D コンテンツ生成の品質が商用レベルに達しました

Direct3D の開始により、3D 生成の分野は商用時代へと大きく飛躍しました。 3D プリントを例にとると、SDS や LRM などの技術ソリューションを使用して生成されたモデルには次の問題があります。

モデルの幾何学的構造が歪んでいて、頭と尾が長くなりがちです
鋭いバリがたくさんあります
表面が滑らかすぎて詳細が不足しています
メッシュにはパッチの数が少なく、微細な構造は保証できません。

これらの問題の存在により、以前のさまざまなソリューションで生成されたモデルは 3D プリンターで正常に印刷できなくなり、手動の調整や修理が必要になります。 Direct3D はネイティブ 3D テクノロジルートを採用し、トレーニングセット内の 3D データのみを使用するため、生成される 3D モデルの品質は元の品質に近くなり、幾何学的構造、モデルの精度、表面の詳細、メッシュパッチの数。 Direct3D によって生成されたモデルの品質は、家庭用プリンターの精度の上限を超えており、生成されたモデルの精度を完全に復元できるのは、より高いスペックを備えた商業用および産業用プリンターのみです。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

これまで、SDSやLRMなどの技術ソリューションでは、3Dモデル特徴量の表現形式に制限があり、生成されるモデルメッシュパッチの数は5万～20万程度が一般的でしたが、商用利用においてはこれを増やすことが困難でした。 3D モデルのメッシュ生地の数は、多くの場合、100 万から 500 万以上に達する必要があります。 Direct3D は、より洗練された 3D 特徴表現パラダイムを提案しているため、生成されるモデルメッシュの数に上限がなく、1,000 万以上に達することができ、さまざまなビジネスシナリオのニーズに対応できます。

Direct3D モデルのパラメーターとトレーニングデータの量の増加に伴い、3D 生成は 2025 年末までに、兆レベルのゲームやアニメーション産業を含む、ますます多くの産業に適用されると予想されます。 3D 生成は、ほとんどのゲーム、アニメーション、映画、テレビのモデリングの代替作業を実現し、さまざまな業界で大規模に使用されるようになります。

Direct3D の実践

Direct3D ラージモデルに基づいて、DreamTech は 2 つの早期採用製品を発売し、現在アプリケーションテストを行っています (クリックして原文を読み、次のリンクに移動してください: www. neural4d.com）。

1 つは C 側ユーザー向けの Animeit! で、ユーザーが入力した任意の画像/テキストオブジェクトを 2 次元スタイルの高品質な 3D キャラクター画像に変換でき、3D キャラクターにはスケルトンノードが含まれます。アクションバインディングでは、Animeit! でユーザーはパーソナライズされた 3D AI パートナーと直接会話し、対話することができます。

Animeit によって生成された 2 次元キャラクターは非常に正確で、はっきりと認識できる顔の輪郭、目立つ手の詳細、および明確な指を備えています。これは、以前の 3D 生成テクノロジールートでは達成できない品質レベルです。 2DコミュニティのMMD制作用。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

もう 1 つの製品は、クリエイター向けの 3D コンテンツ作成プラットフォームです。ユーザーは、Midjourney などのプラットフォームを使用するのと同じように、長期間の改良を待つことなく、テキストの説明を通じて 1 分以内に高品質の 3D モデルを取得できます。ユーザーは 1 つの画像だけをアップロードし、高品質で正確に復元された 3D モデルを取得するまでしばらく待つこともできます。

DreamTech について

DreamTech は 3D AI テクノロジーの分野に深く関与しており、革新的な製品とサービスを使用して世界中の AIGC クリエイターと消費者のエクスペリエンスを向上させることに尽力しています。高度な AI の活用この技術は、現実世界とシームレスに接続され、リアルタイムでインタラクションする 4D 時空間体験を作成し、現実世界の複雑さと多様性をシミュレートすることで汎用人工知能 (AGI) を実現します。

DreamTech は世界トップクラスの AI 人材を結集しており、その創設チームは英国アカデミーと科学アカデミーの学者、国家レベルの若い人材、そして深センの多くのハイレベルの人材で構成されています。同社の中心メンバーは、オックスフォード大学、香港中文大学、香港科技大学などの世界的に有名な大学を卒業し、Apple、Tencent、Baiduなどの業界をリードする企業で働いてきました。設立チームのメンバーは、3D 分野のベンチマークとなる多くの企業の設立に成功し、これらの企業は後に Apple、Google、Bosch などの業界大手に買収されました。

以上がSORAの3Dバージョンが登場！ DreamTech が世界初のネイティブ 3D-DiT 大型モデルである Direct3D を発売の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构 auto 对象算法人工智能 transformer stable diffusion DreamFusion https AIGC midjourney agi

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：魯迅に早口言葉を話させ、ヘップバーンにヒップホップを演奏してもらうという別のビデオモデルが広まり、スタンフォードの中国人医師によって設立されました。次の記事：魯迅に早口言葉を話させ、ヘップバーンにヒップホップを演奏してもらうという別のビデオモデルが広まり、スタンフォードの中国人医師によって設立されました。

続きを見る