ホームページ >テクノロジー周辺機器 >AI >OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

PHPz
PHPz転載
2024-03-18 20:40:11642ブラウズ

少し前まで、OpenAI Sora はその驚くべきビデオ生成効果で急速に人気を博し、数ある Wensheng ビデオ モデルの中でも際立って世界的な注目を集めました。 2 週間前にコストを 46% 削減した Sora トレーニング推論再現プロセスの開始に続き、Colossal-AI チームは、トレーニング プロセス全体をカバーする世界初の Sora のようなアーキテクチャのビデオ生成モデル「Open-Sora 1.0」を完全にオープンソース化しました。 、データ処理、すべてのトレーニングの詳細、モデルの重みを含む、世界中の AI 愛好家と協力して、ビデオ作成の新時代を促進します。

まずは、Colossal-AI チームがリリースした「Open-Sora 1.0」モデルによって生成されたにぎやかな都市のビデオを見てみましょう。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

Open-Sora 1.0 によって生成された賑やかな都市のスナップショット

これは Sora の再現の氷山の一角にすぎません上記の記事について ビデオ モデル アーキテクチャ、トレーニングされたモデルの重み、すべての繰り返しトレーニングの詳細、データの前処理プロセス、デモの表示と詳細な入門チュートリアル、Colossal-AI チームは GitHub で無料で完全にオープンソース化されており、著者できるだけ早く会社に連絡しました。チームは、今後も Open-Sora 関連のソリューションと最新の開発情報を更新し続けることを理解しています。興味のある友人は、引き続き Open-Sora のオープン ソース コミュニティにご注目ください。

Open-Sora オープンソース アドレス: https://github.com/hpcaitech/Open-Sora

Sora 再現計画の包括的な解釈

次に、モデル アーキテクチャ設計、トレーニング方法、データ前処理、モデル効果の表示、最適化されたトレーニング戦略など、Sora のレプリケーション ソリューションのいくつかの重要な側面を詳しく掘り下げていきます。

モデル アーキテクチャ設計

モデルは、現在一般的な拡散トランス (DiT) [1] アーキテクチャを採用しています。著者チームは、やはりDiTアーキテクチャをベースとした高品質なオープンソースのヴィンセントグラフモデルPixArt-α[2]を使用し、これをベースに時間的注意層を導入し、ビデオデータまで拡張しています。具体的には、アーキテクチャ全体には、事前トレーニングされた VAE、テキスト エンコーダー、および時空間アテンション メカニズムを利用する STDiT (空間時間拡散変換器) モデルが含まれています。このうち、STDiTの各層の構造を下図に示します。シリアル手法を使用して、1 次元の時間的注意モジュールを 2 次元の空間的注意モジュールに重ねて、時間関係をモデル化します。時間的注意モジュールの後に、クロス注意モジュールを使用してテキストの意味を調整します。フル アテンション メカニズムと比較して、このような構造はトレーニングと推論のオーバーヘッドを大幅に削減します。同様に時空間注意メカニズムを使用する Latte [3] モデルと比較して、STDiT は、事前トレーニングされた画像 DiT の重みをより適切に利用して、ビデオ データのトレーニングを継続できます。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

#STDiT 構造図

モデル全体のトレーニングと推論のプロセスは次のとおりです。トレーニング段階では、まず事前トレーニングされた変分オートエンコーダー (VAE) エンコーダーを使用してビデオ データを圧縮し、次に STDiT 拡散モデルが圧縮された潜在空間に埋め込まれたテキストとともにトレーニングされることが理解されています。推論段階では、VAE の潜在空間からガウス ノイズがランダムにサンプリングされ、プロンプト埋め込みとともに STDiT に入力されてノイズ除去された特徴が取得され、最後に VAE のデコーダに入力されてデコードされてビデオが取得されます。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

モデルのトレーニング プロセス

トレーニング再現プラン

チームは、Open-Sora の再発計画が Stable Video Diffusion (SVD)[3] 作業に言及しており、次の 3 つの段階を含んでいることを知りました。トレーニング。

  • 大規模なビデオによる事前トレーニング。
  • 高品質ビデオ データの微調整。
  • 各ステージでは、前のステージの重量に基づいてトレーニングが継続されます。ゼロからの単一ステージのトレーニングと比較して、マルチステージ トレーニングでは、データを段階的に拡張することで、高品質のビデオ生成という目標をより効率的に達成します。

#トレーニング計画の 3 つのフェーズ

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

第一フェーズ: 大規模な画像の事前トレーニング

最初のステージでは、大規模な画像の事前トレーニングと成熟したヴィンセント グラフ モデルを使用して、ビデオの事前トレーニングのコストを効果的に削減します。

著者チームは、インターネット上の豊富で大規模な画像データと高度な文法技術を通じて、高品質の文法モデルを学習できることを明らかにしました。次の 1 段階ビデオ事前トレーニングの初期化重み。同時に、現在高品質の時空間 VAE が存在しないため、安定拡散 [5] モデルによって事前学習された画像 VAE を使用しました。この戦略により、初期モデルの優れたパフォーマンスが保証されるだけでなく、ビデオの事前トレーニングにかかる​​全体的なコストも大幅に削減されます。

#第 2 段階: 大規模なビデオ事前トレーニング

第 2 段階では、大規模なビデオ事前トレーニングを実行してモデルを増やします一般化能力、ビデオの時系列相関を効果的にマスターします。

この段階では、ビデオテーマの多様性を確保し、それによってモデルの一般化能力を高めるためにトレーニングに大量のビデオデータを使用する必要があることを理解しています。第 2 段階のモデルは、ビデオ内の時間的関係を学習するために、第 1 段階のヴィンセント グラフ モデルに時間的注意モジュールを追加します。残りのモジュールは最初のステージとの一貫性を維持し、初期化として最初のステージの重みをロードします。同時に、時間的注意モジュールの出力はゼロに初期化され、より効率的かつ高速な収束を実現します。 Colossal-AI チームは、第 2 段階の STDiT モデルの初期化として PixArt-alpha [2] のオープンソースの重みを使用し、テキスト エンコーダーとして T5 [6] モデルを使用しました。同時に、事前トレーニングに 256x256 という小さな解像度を使用したため、収束速度がさらに向上し、トレーニング コストが削減されました。

#第 3 段階: 高品質ビデオ データの微調整

第 3 段階では、高品質ビデオ データを微調整して大幅に改善します。ビデオ生成の品質。

著者チームは、第 3 段階で使用されるビデオ データのサイズは第 2 段階に比べて 1 桁小さいと述べましたが、長さ、解像度、品質はビデオのほうが高いです。このように微調整することで、短いものから長いもの、低解像度から高解像度、低忠実度から高忠実度まで、ビデオ生成の効率的なスケーリングを実現しました。

著者チームは、Open-Sora の再現プロセスで、トレーニングに 64 個の H800 ブロックを使用したと述べています。第 2 段階の合計トレーニング量は 2808 GPU 時間で、約 7000 ドル、第 3 段階のトレーニング量は 1920 GPU 時間で、約 4500 ドルです。予備的な見積もりの​​後、トレーニング プログラム全体で Open-Sora の再生プロセスを約 10,000 米ドルに抑えることに成功しました。

データ前処理

Sora 再現のしきい値と複雑さをさらに軽減するために、Colossal-AI チームは便利なビデオ データも提供します。前処理スクリプトを使用すると、公開ビデオ データ セットのダウンロード、ショットの連続性に基づいて長いビデオを短いビデオ クリップに分割すること、オープン ソースの大規模言語モデル LLaVA [7] を使用して詳細なプロンプト ワードを生成することなど、Sora 再帰事前トレーニングを簡単に開始できます。著者チームは、提供したバッチビデオタイトル生成コードは 2 枚のカードと 3 秒のビデオに注釈を付けることができ、品質は GPT-4V に近いと述べました。結果として得られるビデオとテキストのペアは、トレーニングに直接使用できます。 GitHub で提供されるオープン ソース コードを使用すると、独自のデータ セットでのトレーニングに必要なビデオとテキストのペアを簡単かつ迅速に生成できるため、Sora レプリケーション プロジェクトを開始するための技術的なしきい値と事前準備が大幅に軽減されます。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

#データ前処理スクリプトに基づいて自動生成されたビデオ/テキストのペア

モデル生成効果の表示

Open-Sora による実際のビデオ生成効果を見てみましょう。たとえば、Open-Sora で、崖の海岸の岩に打ち寄せる海水の空撮ショットを生成してみましょう。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

Open-Sora で、崖から勢いよく流れ落ち、最後には湖に流れ込む山や滝の雄大な空撮を撮影しましょう。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

# 空に行くだけでなく、海にも入ることができます。プロンプトを入力して Open-Sora にショットを生成させます。アンダーウォーターワールド。ショットでは、サンゴ礁にカメがいます。ゆっくりとクルーズします。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

Open-Sora では、タイムラプス撮影を通じて星がきらめく天の川も見せてくれます。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

ビデオ生成に関するさらに興味深いアイデアがある場合は、Open-Sora オープン ソース コミュニティにアクセスして、無料体験としてモデルの重みを取得できます。リンク: https://github.com/hpcaitech/Open-Sora

作者チームが Github で、現在のバージョンでは 400K のトレーニング データのみを使用していると述べたことは注目に値します。モデル 生成品質とテキストを追跡する能力の両方を改善する必要があります。たとえば、上のカメのビデオでは、結果のカメに余分な足が付いています。 Open-Sora 1.0 は、ポートレートや複雑な画像の生成も苦手です。著者チームは、既存の欠陥を継続的に解決し、制作の品質を向上させることを目的として、Github 上で実行される一連の計画をリストしました。

効率的なトレーニング サポート

Sora 再現の技術的閾値を大幅に下げ、再生時間、解像度、コンテンツなどの多面的なビデオ生成の品質を向上させることに加えて、著者は、チームはまた、Colossal-AI 加速システムを提供し、Sora 再発の効率的なトレーニング サポートを提供します。オペレーターの最適化やハイブリッド並列処理などの効率的なトレーニング戦略により、64 フレーム、解像度 512x512 のビデオを処理するトレーニングで 1.55 倍の高速化効果が達成されました。同時に、Colossal-AI の異種メモリ管理システムのおかげで、1 分間の 1080p 高解像度ビデオ トレーニング タスクを単一のサーバー (8*H800) で支障なく実行できます。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

さらに、著者チームのレポートでは、STDiT モデル アーキテクチャがトレーニング中に優れた効率を示していることもわかりました。フル アテンション メカニズムを使用する DiT と比較して、STDiT はフレーム数の増加に応じて最大 5 倍の高速化を実現します。これは、長いビデオ シーケンスの処理などの現実のタスクでは特に重要です。

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう

#Open-Sora オープン ソース プロジェクトにご注目ください: https://github.com/hpcaitech/Open-Sora

著者チームは、Open-Sora プロジェクトの維持と最適化を継続し、より多くのビデオ トレーニング データを使用して、より高品質で長いビデオ コンテンツを生成し、マルチ解像度機能をサポートすることが期待されていると述べています。映画、ゲーム、広告などの分野へのAI技術の導入を効果的に推進します。

参考リンク:

[1] https://arxiv.org/abs/2212.09748 変圧器を使用したスケーラブルな拡散モデル。

[2] https://arxiv.org/abs/2310.00426 PixArt-α: フォトリアリスティックなテキストから画像への合成のための拡散トランスフォーマーの高速トレーニング。

[3] https://arxiv.org/abs/2311.15127 安定したビデオ拡散: 潜在ビデオ拡散モデルを大規模なデータセットに拡張します。

[4] https://arxiv.org/abs/2401.03048 Latte: ビデオ生成用の潜在拡散トランスフォーマー。

[5] https://huggingface.co/stabilityai/sd-vae-ft-mse-original。

[6] https://github.com/google-research/text-to-text-transfer-transformer。

[7] https://github.com/haotian-liu/LLaVA。

[8] https://hpc-ai.com/blog/open-sora-v1.0。

以上がOpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。