世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示-AI-php.cn

ホームページ

テクノロジー周辺機器

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 18, 2024 pm 08:25 PM

AIaisora

世界初のオープンソースのSora風建築ビデオ生成モデルが登場！

データ処理、すべてのトレーニングの詳細、モデルの重みを含むトレーニングプロセス全体はすべてオープンです。

これは、リリースされたばかりの Open-Sora 1.0 です。

実際の効果は以下の通りで、繁華街の夜景に賑わいを生み出すことができます。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

航空写真の視点を使用して、崖の海岸と岩に打ち寄せる海水のシーンを表示することもできます。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

または、タイムラプス撮影による広大な星空。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

Sora のリリース以来、Sora の公開と再作成は、その驚くべき効果と技術的な詳細の不足により、開発コミュニティで最も話題になるトピックの 1 つとなっています。たとえば、Colossal-AI チームは、コストを 46% 削減できる Sora のトレーニングと推論の複製プロセスを開始しました。

わずか 2 週間後、チームは再び最新の進捗状況をリリースし、Sora のようなソリューションを再現し、技術ソリューションと詳細なチュートリアルを GitHub で無料でオープンソースにしました。

そこで問題は、ソラをどのように再現するかということです。

Open-Sora オープンソースアドレス: https://github.com/hpcaitech/Open-Sora

Sora 再発計画の包括的な解釈

Sora 再発計画には以下が含まれます4 つの側面:

モデルアーキテクチャ設計
トレーニング再現計画
データ前処理
効率的なトレーニング最適化戦略

#モデルアーキテクチャ設計

モデルは、Sora 相同アーキテクチャ拡散トランス (DiT) を採用しています。

DiT アーキテクチャを使用した高品質なオープンソースのヴィンセントグラフモデルである PixArt-α をベースに、時間的アテンションレイヤーを導入し、ビデオデータに拡張しています。

具体的には、アーキテクチャ全体には、事前トレーニングされた VAE、テキストエンコーダー、および時空間注意メカニズムを利用する STDiT (空間時間拡散変換器) モデルが含まれています。

このうち、STDiT の各層の構造を下図に示します。

これは、シリアル手法を使用して、1 次元の時間的注意モジュールを 2 次元の空間的注意モジュールに重ね合わせ、時間的な関係をモデル化します。時間的注意モジュールの後に、クロス注意モジュールを使用してテキストの意味を調整します。

完全な注意メカニズムと比較して、このような構造はトレーニングと推論のオーバーヘッドを大幅に削減します。

同様に時空間注意メカニズムを使用する Latte モデルと比較して、STDiT は、事前トレーニングされた画像 DiT の重みをより適切に利用して、ビデオデータのトレーニングを継続できます。

#△STDiT 構造図

モデル全体の学習と推論のプロセスは次のとおりです。

トレーニング段階では、まず事前トレーニングされた変分オートエンコーダー (VAE) エンコーダーを使用してビデオデータを圧縮し、次に STDiT が圧縮された潜在空間に埋め込まれたテキストとともにトレーニングされることが理解されています。モデル。

推論段階では、ガウスノイズが VAE の潜在空間からランダムにサンプリングされ、プロンプトエンベディングとともに STDiT に入力されてノイズ除去された特徴が取得され、最後に VAE デコードプロセッサに入力されてデコードされて、ビデオ。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

△モデルトレーニングプロセス

トレーニング再現計画

トレーニング再現部分では、Open-Sora は Stable Video Diffusion (SVD) を指します。

これは 3 つのステージに分かれています:

大規模な画像の事前トレーニング。
大規模なビデオによる事前トレーニング。
高品質ビデオデータの微調整。

各ステージでは、前のステージの重みに基づいてトレーニングを継続します。

ゼロからの単一ステージのトレーニングと比較して、マルチステージトレーニングでは、データを段階的に拡張することで、高品質のビデオ生成という目標をより効率的に達成します。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

#△トレーニング計画の 3 つのフェーズ

最初のフェーズは大規模な画像の事前トレーニングです。

チームは、インターネット上の豊富な画像データとビンセントグラフテクノロジを使用して、最初に高品質のビンセントグラフモデルをトレーニングし、このモデルをビデオ事前トレーニングの次の段階の初期化重みとして使用しました。

同時に、現在高品質の時空間 VAE がないため、Stable Diffusion の事前学習済み画像 VAE を使用しています。

これにより、初期モデルの優れたパフォーマンスが保証されるだけでなく、ビデオの事前トレーニングにかかる全体的なコストも大幅に削減されます。

第 2 段階は、大規模なビデオによる事前トレーニングです。

この段階では主にモデルの汎化能力を高め、映像の時系列相関を効果的に把握します。

トレーニングには大量のビデオデータを使用し、ビデオ素材の多様性を確保する必要があります。

同時に、第 2 段階のモデルは、ビデオ内の時間的な関係を学習するために、第 1 段階のヴィンセントグラフモデルに基づいた時間的注意モジュールを追加します。残りのモジュールは最初のステージとの一貫性を維持し、初期化として最初のステージの重みをロードします。同時に、時間的注意モジュールの出力はゼロに初期化され、より効率的かつ高速な収束を実現します。

Colossal-AI チームは、第 2 段階の STDiT モデルの初期化として PixArt-alpha のオープンソースウェイトを使用し、テキストエンコーダーとして T5 モデルを使用しました。彼らは事前トレーニングに 256x256 という小さな解像度を使用しました。これにより、収束速度がさらに向上し、トレーニングコストが削減されました。

△Open-Sora 生成効果 (即言: 水中世界のショット、サンゴ礁の間をのんびり泳ぐカメ)

第 3 段階は高画質なビデオデータを微調整します。

レポートによると、この段階によりモデル生成の品質が大幅に向上する可能性があります。使用されるデータサイズは前の段階よりも 1 桁小さくなりますが、ビデオの長さ、解像度、品質は高くなります。

このように微調整することで、短いものから長いもの、低解像度から高解像度、低忠実度から高忠実度までビデオ生成を効率的に拡張できます。

Colossal-AI は各ステージのリソース使用量も詳細に開示したことは注目に値します。

Open-Sora の再現プロセスでは、トレーニングに 64 台の H800 が使用されました。第 2 段階のトレーニング量の合計は 2,808 GPU 時間で約 7,000 米ドル、第 3 段階のトレーニング量は 1920 GPU 時間で約 4,500 米ドルです。予備的な見積もりの後、トレーニング計画全体は、Open-Sora の繁殖プロセスを約 10,000 米ドルに抑えることに成功しました。

データ前処理

Sora 再現のしきい値と複雑さをさらに軽減するために、Colossal-AI チームはコードウェアハウスに便利なビデオデータ前処理スクリプトも提供しています。ソラ再発事前トレーニングを開始します。

公開ビデオデータセットのダウンロード、ショットの連続性に基づいて長いビデオを短いビデオクリップに分割すること、オープンソースの大規模言語モデル LLaVA を使用して正確なプロンプトワードを生成することが含まれます。

同社が提供するバッチビデオタイトル生成コードは、ビデオに 2 枚のカードと 3 秒の注釈を付けることができ、品質は GPT-4V に近くなります。

最終的なビデオとテキストのペアは、トレーニングに直接使用できます。 GitHub で提供されるオープンソースコードを使用すると、独自のデータセットでのトレーニングに必要なビデオとテキストのペアを簡単かつ迅速に生成できるため、Sora レプリケーションプロジェクトを開始するための技術的なしきい値と事前準備が大幅に軽減されます。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

効率的なトレーニングサポート

さらに、Colossal-AI チームはトレーニング高速化ソリューションも提供します。

オペレーターの最適化やハイブリッド並列処理などの効率的なトレーニング戦略により、64 フレーム、解像度 512x512 のビデオ処理のトレーニングで 1.55 倍の高速化効果が達成されました。

同時に、Colossal-AI の異種メモリ管理システムのおかげで、1 分間の 1080p 高解像度ビデオトレーニングタスクを単一サーバー (8H800) で支障なく実行できます。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

#また、チームは、STDiT モデルアーキテクチャがトレーニング中に優れた効率を示すことも発見しました。

フルアテンションメカニズムを使用する DiT と比較して、STDiT はフレーム数の増加に応じて最大 5 倍の高速化効果を実現します。これは、長いビデオシーケンスの処理などの実際のタスクでは特に重要です。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

最後に、チームはさらに Open-Sora 生成エフェクトもリリースしました。

、期間 00:25

チームと Qubits は、Open-Sora 関連のソリューションと開発を長期的に更新および最適化することを明らかにしました。将来的には、より多くのビデオトレーニングデータを使用して、より高品質で長いビデオコンテンツを生成し、マルチ解像度機能をサポートする予定です。

実用化に関しては、映画、ゲーム、広告などの分野での導入を推進していくことを明らかにした。

興味のある開発者は、GitHub プロジェクトにアクセスして詳細をご覧ください~

Open-Sora オープンソースアドレス: https://github.com/hpcaitech/Open-Sora

Referenceリンク:

[1]https://arxiv.org/abs/2212.09748 変圧器を備えたスケーラブルな拡散モデル。

[2]https://arxiv.org/abs/2310.00426 PixArt-α: フォトリアリスティックなテキストから画像への合成のための拡散変換器の高速トレーニング．

[3]https://arxiv.org/abs/2311.15127 安定したビデオ拡散: 潜在ビデオ拡散モデルを大規模なデータセットに拡張します。

[4]https://arxiv.org/abs/2401.03048 Latte: ビデオ生成用の潜在拡散トランスフォーマー。

[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original。

[6]https://github.com/google-research/text-to-text-transfer-transformer。

[7]https://github.com/haotian-liu/LLaVA。

[8]https://hpc-ai.com/blog/open-sora-v1.0。

以上が世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

顔を抱きしめます＆＃039; S 7BモデルオリンピックコダーはClaude 3.7を破っていますか？Apr 23, 2025 am 11:49 AM

FaceのOlympiccoder-7Bを抱き締める：強力なオープンソースコード推論モデル優れたコードに焦点を当てた言語モデルを開発するための競争は激化しており、顔を抱き締めることは、恐るべき競争相手との競争に参加しました：Olympiccoder-7B、製品

4つの新しいジェミニ機能は、見逃す余裕がありますApr 23, 2025 am 11:48 AM

AIが質問に答えるだけでなく、AIができることを望んでいる人は何人いますか？私は自分が持っていることを知っています、そして最近、私はそれがどのように変容しているかに驚いています。 aiチャットボットはもうチャットするだけでなく、作成することです。

Camundaは、エージェントAIオーケストレーションの新しいスコアを作成しますApr 23, 2025 am 11:46 AM

Smart AIは、エンタープライズソフトウェアプラットフォームとアプリケーションのあらゆるレベルのレベルに統合され始めているため（強力なコアツールと信頼性の低いシミュレーションツールの両方があることを強調する必要があります）、これらのエージェントを管理するための新しいインフラストラクチャ機能のセットが必要です。ドイツのベルリンに拠点を置くプロセスオーケストレーション会社であるCamundaは、Smart AIが適切な役割を果たし、新しいデジタル職場での正確なビジネス目標とルールと一致するのに役立つと考えています。同社は現在、組織がAIエージェントのモデル化、展開、管理を支援するように設計されたインテリジェントオーケストレーション機能を提供しています。実用的なソフトウェアエンジニアリングの観点から、これはどういう意味ですか？確実性と非決定的プロセスの統合同社は、鍵はユーザー（通常はデータサイエンティスト、ソフトウェア）を許可することだと言いました

キュレーションされたエンタープライズAIエクスペリエンスに価値はありますか？Apr 23, 2025 am 11:45 AM

次の'25年にGoogle Cloudに参加して、GoogleがどのようにAIの製品を区別するかを見たいと思っていました。エージェントスペース（ここで説明）とカスタマーエクスペリエンススイート（ここで説明）に関する最近の発表は、ビジネス価値を強調し、

ぼろきれに最適な多言語埋め込みモデルを見つける方法は？Apr 23, 2025 am 11:44 AM

検索拡張生成（RAG）システムのための最適な多言語埋め込みモデルの選択今日の相互接続された世界では、効果的な多言語AIシステムを構築することが最重要です。 REには、堅牢な多言語埋め込みモデルが重要です

ムスク：オースティンのロボタキシスは、10,000マイルごとに介入が必要ですApr 23, 2025 am 11:42 AM

テスラのオースティンロボタキシローンチ：マスクの主張を詳しく見る Elon Muskは最近、テキサス州オースティンでのテスラの今後のRobotaxi発売を発表しました。当初、安全上の理由で10〜20台の車両の小さな艦隊を展開し、迅速な拡大を計画しました。 h

AI＆＃x27;の衝撃的なピボット：作業ツールからデジタルセラピストやライフコーチまでApr 23, 2025 am 11:41 AM

人工知能の適用方法は予期しない場合があります。当初、私たちの多くは、それが主にコードの作成やコンテンツの作成など、創造的で技術的なタスクに使用されていると思うかもしれません。ただし、Harvard Business Reviewによって報告された最近の調査では、そうではないことが示されています。ほとんどのユーザーは、仕事だけでなく、サポート、組織、さらには友情のために人工知能を求めています！報告書は、AIアプリケーションの最初のケースは治療と交際であると述べています。これは、その24時間年中無休の可用性と匿名の正直なアドバイスとフィードバックを提供する能力が非常に価値があることを示しています。一方、マーケティングタスク（ブログの作成、ソーシャルメディアの投稿の作成、広告コピーなど）は、一般的な使用リストではるかに低くランク付けされています。なぜこれがなぜですか？研究の結果とそれがどのように続くかを見てみましょう