ホームページ  >  記事  >  テクノロジー周辺機器  >  0.5 秒、GPU 不要、安定性 AI と中国チーム VAST オープンソースの単一画像で 3D モデル TripoSR を生成

0.5 秒、GPU 不要、安定性 AI と中国チーム VAST オープンソースの単一画像で 3D モデル TripoSR を生成

WBOY
WBOY転載
2024-03-05 21:20:08904ブラウズ

最近、Vincent のビデオ モデル Sora が生成 AI モデルの新たな波を引き起こし、このモデルのマルチモーダル機能が幅広い注目を集めています。

現在、AI モデルは 3D コンテンツ生成において新たな進歩を遂げています。

画像生成およびビデオ生成プロジェクトの立ち上げに成功した後、ビジュアル コンテンツ生成を専門とする Stability AI は、現在 3D 分野への拡大に取り組んでいます。最新のニュースによると、同社は中国のチームVASTと協力して、TripoSRと呼ばれる単一画像生成の3Dモデルプロジェクトを共同でオープンソース化した。この動きにより、デジタル コンテンツ生成分野における Stability AI の主導的地位がさらに強化され、ユーザーにより多様で革新的な製品エクスペリエンスがもたらされます。

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

TripoSR は、単一の画像から高品質の 3D モデルを 0.5 秒で生成でき、GPU の実行も必要ありません。 0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

  • #TripoSR モデル コード: https://github.com/VAST-AI-Research/TripoSR

  • TripoSR モデルの重み: https://huggingface.co/stabilityai/TripoSR

  • TripoSR デモ: https://huggingface.co/spaces/stabilityai/TripoSR

TripoSR を NVIDIA A100 でテストしたところ、テクスチャ付きの高品質なスケッチ 3D メッシュ モデルを約 0.5 秒で生成できました。これは、他のオープンソースの画像から 3D モデルへのツールを上回るパフォーマンスです。 . OpenLRM など。速度に加えて、TripoSR は GPU の有無にかかわらずユーザーでも十分に使用できます。

TripoSR は、Adobe が 2023 年 11 月に発売した LRM からインスピレーションを受けています。これは、画像生成 3D 大規模再構成モデ​​ル (LRM) のための革新的なテクノロジーです。 LRM は、単一の入力画像から対応する 3D モデルをわずか数秒で生成できるという点でユニークです。このテクノロジーは効率と精度の点で画期的であり、ユーザーは平面画像を現実的な 3 次元モデルに簡単に変換できます。 TripoSR はこのテクノロジーに基づいてさらに開発および最適化されており、ユーザーは驚くべき 3 次元シーンをより迅速かつ正確に作成できるようになります。 LRM を組み合わせることで、3D タスクは画像言語を 3D モデル言語に変換するプロセスとして理解できます。画像言語の「単語」(言語モデルのトークンやビデオ モデルのパッチに類似)は、ユーザー入力画像を小さな部分に分割するものですが、LRM 手法では、3D の「単語」がモデル言語とは、「トリプレーン」の三次元表現の小さなブロックごとに、画像言語の「言葉」を3Dモデル言語の「言葉」に変換し、実現する情報の一種です。入力画像と出力 3D モデル。

トランスフォーマー アーキテクチャのサポートにより、LRM は 100 万を超える公開 3D データでトレーニングされ、驚異的なグラフ生成 3D 効果と効率を実証したため、学界と産業界で大きな注目を集めています。しかし、関連するコードやモデルはオープンソースではなく、莫大な訓練コスト(1週間に128台のA100を稼働させる)もあり、小規模な研究組織が立ち入ることができないなど、この技術の民間開発は大きな妨げとなっている。

今回、Tripo AI と Stability AI は共同で、ユーザーが提供した画像に基づいて高品質の 3 次元モデルをほぼリアルタイムで生成できる LRM の初の高品質オープンソース実装 - TripoSR をリリースしました。 3D 生成モデルのギャップを大幅に埋める、人工知能の分野における重大なギャップ。

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR Stability のブログと技術レポートによると、このモデルは、Objaverse データセットの細かくフィルタリングされレンダリングされたサブセット、および一連のモデルとレンダリングを通じて、LRM のオリジナルのアルゴリズムに基づいています。トレーニングの改善。限られたトレーニング データから一般化する能力が大幅に向上すると同時に、3D 再構築の忠実度も向上します。 TripoSR が登場するまで、学術コミュニティやオープンソース コミュニティには、強力な一般化機能を備えた、オープンで高速かつ強力な 3D 生成の基本モデルとフレームワークが不足していました。 threestudio などのオープンソース プロジェクトが広く注目されていますが、3D モデルの生成は、最適化と計算に長い時間を必要とするテクノロジ (蒸留スコア サンプリングなど) に依存しているため、時間がかかり、リソースを大量に消費します。この方針に沿って以前にリリースされた Stability AI の Stable Zero123 プロジェクトと、threestudio への統合の試みはある程度の進歩を遂げましたが、依然としてこれらの問題に完全には対処できませんでした。

TripoSR オープン ソースにより、世界中の研究者、開発者、クリエイティブ ワーカーが最先端の 3D 生成 AI モデルにアクセスできるようになり、あらゆる種類の企業が 3D コンテンツを使用してより複雑な製品やサービスを作成し、3D 業界での新しい作品を探索できるようになります。可能性を高め、より活発で競争的な市場を促進します。

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

# このグラフは、3D パフォーマンスの F-SCORE (高いほど良い) と推論時間 (低いほど良い) の関係を示しています。より良い)。

近年、コンピュータ グラフィックスやコンピュータ ビジョンの分野で 3D コンテンツ生成技術が着実に発展しています。ここ 1 年ほどで、特に大規模な公開 3D データセットの出現と、2D 画像およびビデオの分野における強力な生成モデルの進歩により、3D 生成技術は驚異的かつ急速な進歩を遂げ、業界から幅広い注目を集めています。 。これに関連して、DreamFusion (Google Research チームが提案) などのスコア蒸留サンプリング (SDS) に基づく技術は、複数の観点から 3D モデルを生成する点で画期的な進歩を遂げましたが、依然として生成時間が長く、実用化には困難が伴います。生成されたモデルなどの制約を詳細に制御します。

これに対し、今回リリースされた TripoSR のような、大規模な 3D データ セットと大規模なスケーラブルなモデル アーキテクチャに基づく生成技術ソリューションは、さまざまな 3D データ セットとその生成 3D モデルのプロセスには早送り推論のみが必要で、生成中に 3D モデルの結果を簡単かつ細かく制御できます。このタイプのテクノロジーの出現は、3D 生成テクノロジーの急速な発展に新たな道を開くだけでなく、業界におけるより広範なアプリケーションの新たな可能性も提供します。

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

# 画像とデータ ソース: TripoSR: 単一画像からの高速 3D オブジェクト再構築

#今回、Stability AI が Tripo AI と共同でオープンソース化されたことは注目に値します。 Tripo AI の背後にある研究機関である VAST AI Research は、3D コンテンツ生成分野の最先端の研究チームとして、設立以来オープンソース コミュニティへの貢献に尽力しており、高解像度のコードとウェイトを次々とオープンソース化してきました。 Wonder3D、CSD、TGS などの質の高い研究成果。

Tripo は、2023 年 12 月から VAST によって開始されたユニバーサル 3D 生成モデルです (www.tripo3d.ai)。テキストや写真から 3D メッシュ モデルを 8 秒で生成し、5 分でリファインすることができ、生成されたモデルの形状や材質の品質は手動レベルに近いものになります。

VAST AI Research のブログによると、3D 生成分野における AI の急速な発展には、人間の経験への依存から脱却し、より大きなデータ、よりスケーラブルなモデル、および十分なデータを使用する「普遍的なアプローチ」が必要です。強力なコンピューティング能力を活用して「学習」します。この「普遍的なアプローチ」には、複数のモダリティの学習データの統一、複数のモダリティの制御条件の統一、複数のモダリティに共通の生成モデル基盤が含まれるべきである。

この目標を達成するには、表現、モデル、データの 3 つの方向から作業を行う必要があると VAST は考えています。中でも「表現」の選択は重要であり、既存のグラフィックスパイプラインとの互換性を確保しつつ、柔軟性と計算性に優れた3D表現を見つける必要があります。さらに、「3D トークナイザー」の検討も有望な方向性であり、3D 表現を言語トークンに似た形式に変換します。これは、既存の理解および生成モデルを 3D 分野に適用するのに役立ちます。

「モデル」レベルでは、VAST の研究は、他のモダリティにおける大規模モデルの事前知識、設計ガイドライン、トレーニング経験を最大限に活用して、3D データに対するモデルの学習能力を強化することを目的としています。 「データ」レベルの課題は無視できず、高品質でネイティブで多様な 3D データ セット リソースが不足しているため、モデルの最終的なパフォーマンスと一般化機能が制限されています。

TripoSR により、3D 方向の生成 AI モデルの可能性を確認できるようになり、2024 年には 3D 生成の分野でさらなる新たな探求が行われることを楽しみにしています。

参考リンク:

https://stability.ai/news/triposr-3d-generation?utm_source =x&utm_medium=ウェブサイト&utm_campaign=ブログ

以上が0.5 秒、GPU 不要、安定性 AI と中国チーム VAST オープンソースの単一画像で 3D モデル TripoSR を生成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。