ホームページ  >  記事  >  テクノロジー周辺機器  >  Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

WBOY
WBOY転載
2024-04-25 14:55:14882ブラウズ

Open-Sora は、オープンソース コミュニティで静かに更新され、最大 720p の解像度で最大 16 秒のビデオ生成をサポートし、テキストから画像、テキストからビデオ、画像からビデオのあらゆるアスペクト比を処理できるようになりました。 、ビデオからビデオ、および無限長のビデオ生成のニーズ。試してみましょう。

横画面のクリスマス雪景色を生成し、Bサイト

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

に投稿してから縦画面を作成し、ツイート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

し、16秒の長いビデオも生成します。脚本にハマった場合の遊び方は?ガイダンス

GitHub: https://github.com/hpcaitech/Open-Sora

さらに素晴らしいのは、Open-Sora は、最新のモデル アーキテクチャ、最新のモデルの重み、時間/解像度/アスペクト比/フレーム レートのトレーニング プロセス、データ収集と前処理の完全なプロセス、すべてのトレーニングの詳細、デモ例

および

詳細な入門チュートリアル など。 Open-Sora技術レポートの包括的な解釈

最新機能の概要

著者チームは、Open-Sora技術レポート[1]をGitHubで正式にリリースしました。著者の理解によると、このアップデートには主に次の主要な機能が含まれています:

長いビデオ生成をサポート

  • 最大 720p のビデオ生成解像度;
  • 任意のアスペクト比、さまざまな解像度および長さの画像をサポートします。 、テキストからビデオ、画像からビデオ、ビデオからビデオ、および無限長のビデオ生成のニーズ
  • 複数時間/解像度/アスペクト比/フレーム レート トレーニングをサポートする、より安定したモデル アーキテクチャ設計を提案します。最新の自動データ処理プロセスはオープンソース化されています。
  • 時空拡散モデル ST-DiT-2
  • 著者チームは、トレーニングの安定性と全体的なパフォーマンスの向上を目的として、Open-Sora 1.0 の STDiT アーキテクチャに重要な改良を加えたと述べていますモデルの。現在のシーケンス予測タスクでは、チームは大規模言語モデル (LLM) のベスト プラクティスを採用し、時間的注意における正弦波位置エンコーディングをより効率的な回転位置エンコーディング (RoPE 埋め込み) に置き換えました。さらに、トレーニングの安定性を高めるために、SD3 モデル アーキテクチャを参照し、さらに QK 正規化技術を導入して半精度トレーニングの安定性を高めました。複数の解像度、異なるアスペクト比、およびフレーム レートのトレーニング要件をサポートするために、著者のチームが提案した ST-DiT-2 アーキテクチャは、位置エンコーディングを自動的にスケールし、異なるサイズの入力を処理できます。

マルチステージトレーニング

Open-Soraのテクニカルレポートによると、Open-Soraはマルチステージトレーニング方法を採用しており、各ステージは前のステージの重量に基づいてトレーニングを継続します。この多段階トレーニングでは、単一段階のトレーニングと比較して、段階的にデータを導入することで高品質のビデオ生成という目標をより効率的に達成します。

初期段階では、ほとんどのビデオは 144p の解像度を使用し、トレーニング用に写真と 240p、480p のビデオが混合されます。トレーニングは約 1 週間続き、合計ステップ サイズは 81k です。第 2 段階では、ほとんどのビデオ データの解像度が 240p および 480p に増加し、トレーニング時間は 1 日で、ステップ サイズは 22k に達します。第 3 段階は 480p と 720p にさらに強化され、トレーニング期間は 1 日で、4k ステップのトレーニングが完了しました。多段階のトレーニング プロセス全体が約 9 日間で完了しました。Open-Sora1.0 と比較して、ビデオ生成の品質が多面的に向上しました。

統合された画像からビデオ/ビデオからビデオのフレームワーク

著者チームは、Transformer の特性に基づいて、DiT アーキテクチャを簡単に拡張して、画像から画像への変換とビデオからビデオへの変換をサポートできると述べました。ビデオ間のタスク。彼らは、画像とビデオの条件付き処理をサポートするマスキング戦略を提案しました。異なるマスクを設定することにより、グラフィック ビデオ、ループ ビデオ、ビデオ拡張、ビデオ自動回帰生成、ビデオ接続、ビデオ編集、フレーム挿入などのさまざまな生成タスクをサポートできます。

画像とビデオの条件付き処理のマスキング戦略をサポート

著者チームは、UL2[2] メソッドに触発されて、モデルのトレーニング段階でランダム マスキング戦略を導入したと述べています。具体的には、マスクされるフレームはトレーニング プロセス中にランダムに選択され、マスク解除されます。これには、最初のフレーム、最初の k フレーム、次の k フレーム、任意の k フレームなどのマスク解除が含まれますが、これらに限定されません。著者らはまた、Open-Sora 1.0 での実験に基づいて、50% の確率でマスキング戦略を適用すると、モデルはわずかなステップ数で画像調整を処理する方法をより適切に学習できることを明らかにしました。 Open-Sora の最新バージョンでは、マスキング戦略を使用してゼロから事前トレーニングする方法が採用されました。

さらに、著者チームは、推論段階のマスキング戦略構成に関する詳細なガイドも思慮深く提供しています。5 つの数値のタプル形式は、マスキング戦略を定義する際に優れた柔軟性と制御を提供します。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

マスクポリシーの設定手順

マルチタイム/解像度/アスペクト比/フレームレートトレーニングをサポート

OpenAI Sora の技術レポート [3] は、元のビデオを使用してトレーニングを行うことを指摘しました解像度、アスペクト比、および長さにより、サンプリングの柔軟性が向上し、フレーミングと構成が改善されます。これに関して、著者チームはバケット化戦略を提案しました。

具体的にはどうやって実装するの?著者が発行した技術レポートを詳しく読んだ結果、いわゆるバケットが(解像度、フレーム数、アスペクト比)の 3 つからなることがわかりました。チームは、最も一般的なビデオ アスペクト比タイプをカバーするために、さまざまな解像度のビデオのアスペクト比の範囲を事前定義しました。各トレーニング サイクル エポックの開始前に、データ セットを再シャッフルし、サンプルをその特性に基づいて対応するバケットに割り当てます。具体的には、各サンプルを、解像度とフレーム長がそのビデオ特徴以下のバケットに入れます。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Soraバケット戦略

著者チームはさらに、コンピューティングリソースの要件を軽減するために、keep_probとbatch_sizeごとに2つの属性(解像度、フレーム数)を導入して削減したことを明らかにしました。コストを計算し、多段階のトレーニングを実施します。このようにして、さまざまなバケットのサンプル数を制御し、各バケットの適切なバッチ サイズを検索することで GPU 負荷のバランスをとることができます。著者は技術レポートでこれについて詳しく説明しています。興味のある友人は、GitHub で著者が公開した技術レポートを読んで詳細を入手できます: https://github.com/hpcaitech/Open-Sora

データ収集と事前-処理プロセス

著者チームは、データの収集と処理に関する詳細なガイダンスも提供します。テクニカルレポートにおける著者の説明によると、Open-Sora 1.0の開発過程で、高性能モデルを育成するにはデータの量と質が非常に重要であることに気づき、データセットの拡張と最適化に取り組んだという。 。彼らは、特異値分解 (SVD) 原理に従い、シーンのセグメンテーション、字幕処理、多様性のスコアリングとフィルタリング、さらにデータセットの管理システムと仕様をカバーする自動データ処理プロセスを確立しました。同様に、彼らはデータ処理関連のスクリプトを無私にオープンソース コミュニティに共有します。興味のある開発者は、これらのリソースを技術レポートやコードと組み合わせて使用​​し、独自のデータセットを効率的に処理および最適化できるようになりました。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Soraのデータ処理プロセス

Open-Soraのパフォーマンスの総合評価

ビデオ生成効果の表示

Open-Soraの最も目を引くハイライトは、頭の中にあるシーンをキャプチャし、テキストの説明を通じて動くビデオに変換できます。あなたの心に浮かんだイメージや想像力を永久に記録し、他の人と共有できるようになりました。ここで、著者は出発点としていくつかの異なるプロンプトを試しました。

たとえば、作者は冬の森を訪れるビデオを生成しようとしました。雪が降って間もなく、松の木は白い雪で覆われ、白い雪の結晶がきれいな層に散らばっていました。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

あるいは、静かな夜、あなたは無数のおとぎ話に描かれているような暗い森の中にいて、空いっぱいの明るい星の下で深い湖が輝いています。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

上空から見る賑やかな島の夜景はさらに美しく、温かみのある黄色の光とリボンのような青い水が人々をゆったりとした休暇の時間へと誘います。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

都会の交通量の多さ、深夜でも灯りの灯る高層ビルや路面店はまた違った趣があります。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora は風景に加えて、さまざまな自然生物も復元できます。真っ赤な花でも、

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

でも、ゆっくりと頭を回すカメレオンでも、Open-Sora はよりリアルなビデオを生成できます。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

また、作成者はさまざまなプロンプト テストを試み、さまざまなコンテンツ、さまざまな解像度、さまざまなアスペクト比、さまざまな長さを含む、参考のために生成された多数のビデオを提供しました。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

著者はまた、Open-Sora がたった 1 つの簡単なコマンドでマルチ解像度のビデオ クリップを生成し、クリエイティブな制限を完全に打ち破ることができることを発見しました。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

解像度: 16*240p

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

解像度: 32*240p

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

解像度: 64*360p

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

解像度: 480 *854p

Open-Sora に静止画像を供給して短いビデオを生成することもできます

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora は、2 つの静止画像を巧みに接続して、午後から夕暮れまでの光と影の変化を体験することもできます。

別の例として、元のビデオを簡単なコマンドで編集したい場合、元々は明るかった森が大雪に見舞われました。

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora を使用して高解像度の画像を生成することもできます

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート

-Soraモデルの重量はすでに完全に無料です。オープンソース コミュニティで公開されているので、ダウンロードして試してみるとよいでしょう。動画のつなぎ合わせ機能にも対応しているので、ストーリー性のあるショートショートストーリーを無料で作成して、あなたの創造性を現実にする機会があることを意味します。

ウェイトのダウンロードアドレス: https://github.com/hpcaitech/Open-Sora

現在の制限と将来の計画

Sora のような Vincent ビデオ モデルの再現では良い結果が得られましたが、進歩はしかし、作者チームは、現在生成されているビデオは、生成プロセス中のノイズの問題、時間的一貫性の欠如、キャラクター生成の品質の低さ、美的スコアの低さなど、多くの点でまだ改善の必要があることも謙虚に指摘しています。これらの課題について、作者チームは、より高いビデオ生成基準を達成するために、次のバージョンの開発でそれらを優先的に解決すると述べています。興味のある方は引き続き注目してください。 Open-Sora コミュニティがもたらす次の驚きを楽しみにしています。

オープンソースアドレス: https://github.com/hpcaitech/Open-Sora

以上がOpen-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。