ホームページ >テクノロジー周辺機器 >AI >Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。
何?ズートピアは国産AIによって実現するのか?
ビデオと一緒に公開されているのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。
Sora は同様の技術的ルートを使用し、多くの自社開発の技術革新を組み合わせて、大きくて合理的な動きを持つだけでなく、物理世界の特性をシミュレートし、強力な概念的な組み合わせ能力と想像力を備えたビデオを作成します。
データによると、Kelingは最大2分30fps、最大解像度1080pの超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートしています。
もう一つの重要な点は、Keling は研究所がリリースしたデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou によって立ち上げられた製品レベルのアプリケーションであるということです。
そして重要なことは、白紙の小切手を書かずに現実的であることです。すぐに発売される、柯嶺大型モデルはKuaiying APPで正式に招待テストを開始しました。
早速、柯玲の傑作をお見せしましょう〜
オープニングビデオを通じて、誰もがすでに柯玲の豊かな想像力を感じたと思います。
Keling は、想像力豊かで制約がないだけでなく、複雑で大規模な時空の動きを描写する際に、実際の運動法則にも準拠しています。
たとえば、道路を高速で走るこのトラは、一貫した画像、カメラアングルの適切な変更、トラの手足の協調した動きを備えているだけでなく、走行中の体幹の揺れも生き生きと表示しています。
宇宙飛行士が月面を走るシーンもありますが、動きがスムーズで、歩き方や影の動きが合理的で適切で、素晴らしいです。
Keling 大型モデルは、動きに加えて、現実の物理世界の特性をシミュレートすることもでき、生成されたビデオはより物理法則に沿っています。
ミルクを注ぐこのビデオでは、機械的な重力の法則と液面の上昇がすべて現実と一致しており、液体を注ぐときに泡が常に上にあるという特徴も撮影されています。
また、光学反射の法則も考慮されており、滑らかな表面上の影にある猫の足と鍵盤がすべて同期して変化します。本体。
さらに、と現実の物理世界 の間の相互作用も真に反映されています。下のビデオで生成された、小さな男の子がハンバーガーを食べているビデオでは、ハンバーガーを食べた後に歯の跡が常に残っています。まるでハンバーガーを食べる過程が目の前で起こっているかのようです。
物理法則に準拠することは、大型モデルにとって依然として非常に困難であり、Sora でさえ完全には実行できないことを知っておく必要があります。 例えば、同じハンバーガーを食べるシーンでも、Soraが生成した動画には人間の手の指が3本しかないという欠点があるだけでなく、噛む位置とハンバーガーの噛み跡が一致しないという欠点もあります…現実世界だけでなく、物理法則と運動法則、そして
想像の場面も、Ke Lingは簡単に理解することができます。
たとえば、このメガネをかけたウサギはコーヒーを飲みながら新聞を読んで、のんびりと満足しています。同時に、Ke Lingの細部の描写も非常に優れており、ゆっくりと咲く2つの花、花びらやおしべの細部まで見ることができます。
さらに、Keling はよりリアルなビデオを生成するだけでなく、最大 1080p の解像度、最大 2 分間の持続時間 (フレームレート 30fps) のビデオを生成し、自由なアスペクト比をサポートします。
縦型動画も含まれており、Kuaishou のショート動画エコシステムと非常に一致していると言えます。
この写真では、電車が走り、窓の外の風景が春夏秋冬の四季を通り抜けていく様子が、2分間の映像全体として非常にまとまっています。
この時点で効果は十分に実証されていると思いますが、まだ満足できない場合は、Keling 公式ウェブサイトのプラットフォーム (ポータルについては記事の最後を参照) にアクセスしてください。魔法の AI ビデオをもっと見てください!
(注:この記事のビデオは圧縮されており、高解像度および最新の効果は公式Webサイトに準拠しています)
それでは、これらのKelingのビデオの背後にはどのような独自のテクノロジーが使用されているのでしょうか?
全体的に、Kelingの大型モデルは、画像生成+タイミングモジュールの組み合わせを置き換えるネイティブWenshengビデオテクノロジールートを採用しており、これがKelingの生成時間、フレームが長い理由でもあります。効率が高く、複雑な動きの中核を正確に処理します。
具体的には、Kuaishou Big Model チームは、優れたビデオ生成モデルには、モデル設計、データ保証、コンピューティング効率、モデル機能の拡張という 4 つのコア要素を考慮する必要があると考えています。
モデルの設計から始めましょう。1 つは十分な強度適合能力、もう 1 つは十分です。 パラメータ容量。
アーキテクチャの選択に関して、Keling の全体的なフレームワークは Sora のような DiT 構造 を採用し、Transformer を使用して従来の拡散モデルの畳み込みネットワークに基づく U-Net を置き換えます。
Transformer は、より強力な処理および生成機能、より強力な拡張機能、より優れた収束効率を備えており、複雑なタスクを処理する際の過剰な冗長性と受容野と位置精度の間の非互換性による U-Net の制限を解決します。
これに基づいて、Kuaishou の大規模モデル チームは、モデル内の隠れ空間エンコード/デコード、タイミング モデリング、その他のモジュールもアップグレードしました
。
現在、潜在空間のエンコード/デコードでは、主流のビデオ生成モデルは通常、空間圧縮に Stable Diffusion の 2D VAE を使用しますが、これにはビデオの情報の明らかな冗長性があります。 そのため、Kuaishou 大型モデル チームは、空間と時間の同期圧縮を実現し、より高い再構成品質を取得し、トレーニングのパフォーマンスと効果の最適なバランスを達成するために、 3D VAE ネットワーク
を独自に開発しました。 さらに、時間情報モデリングの観点から、Kuaishou 大型モデル チームは、時空間モデリング モジュールとして、計算効率の高いフル アテンション メカニズム
(3D アテンション)を設計しました。
この方法では、計算コストを考慮しながら、複雑な時空間運動をより正確にモデル化でき、モデルのモデリング機能が効果的に向上します。
もちろん、モデル自体の機能に加えて、ユーザーが入力したテキストプロンプトの単語も、最終的に生成されるエフェクトに重要な影響を与えます。 この目的のために、チームは、ユーザーが入力したプロンプトワードの高品質な拡張と最適化を実行できる専用言語モデル
データはどのように構築されますか?独自に構築した高品質のデータ スクリーニング ソリューション
モデルの設計について話した後、データはモデルのパフォーマンスにも重要です。
実際、トレーニング データの規模と品質が不十分であることも、多くのビデオ生成モデル開発者が直面する厄介な問題です。 オンラインビデオは一般的に品質が低く、トレーニングのニーズを満たすのが困難です。 Kuaishou の大規模モデル チームは、トレーニング データを改良したり、トレーニング データの分布を調整したりできる、比較的完全な タグ システム
を構築しました。
🎜このシステムは、基本的なビデオ品質、美しさ、自然さなどの複数の側面からビデオデータの品質を特徴付け、各側面に対してさまざまなカスタマイズされたラベル機能を設計します。 🎜ビデオ生成モデルをトレーニングするときは、ビデオと対応するテキストの説明を同時にモデルにフィードする必要があります。ビデオ自体の品質も保証されています。対応するテキスト説明を取得するにはどうすればよいですか?
開発チームは、正確で詳細かつ構造化されたビデオ説明を生成できるビデオ説明モデルを特別に開発しました。ビデオ生成モデルのテキスト コマンドの応答性が大幅に向上しました。
モデルとデータが利用可能になったので、この方法でのみ、大量のデータに対するトレーニングを完了することができます。限られた時間で大きな効果を実感してください。
より高い計算効率を得るために、Keling Large Model は業界で現在主流の DDPM ソリューションを採用せず、より短い伝送経路を備えたフローモデルを拡散モデルベースとして使用します。
別のレベルで見ると、コンピューティング能力の不足は、多くの AI 実践者が直面している問題でもあります。OpenAI のような大規模なモデル企業でさえ、同様に不足しているコンピューティング能力リソースを抱えています。
この問題は短期間で完全に解決できるわけではないかもしれませんが、できることは、限られた全体のハードウェア リソースの条件下で、コンピューティング能力の効率を可能な限り向上させることです。
Kuaishou 大型モデル チームは、分散トレーニング クラスター を使用し、オペレーターの最適化、再計算戦略の最適化などの手段を通じて、Keling 大型モデルのハードウェア使用率を大幅に向上させました。
トレーニングプロセス中、Keling は 1 つのステップで正しくすることを選択しませんでしたが、段階的に解像度を向上させる段階的なトレーニング戦略を採用しました:
初期の低解像度段階では、主なことは次のとおりです。データは、モデルの概念的多様性の理解とモデリング能力を強化します。
その後の高解像度段階では、モデルのパフォーマンスをさらに向上させ、パフォーマンスを向上させるために、データの品質がより重要な考慮事項になり始めます。詳細に 。
このような戦略を採用すると、量と質の利点が効果的に組み合わされ、トレーニングのすべての段階でモデルを最適化および改善できるようになります。
基本モデルの研究開発に加えて、Kuaishou 大型モデル チームは、アスペクト比などの複数の次元から機能も拡張しました。
アスペクト比に関しても、Keling は固定解像度でトレーニングするために主流のモデルを使用しません。
従来の方法では、通常、可変アスペクト比の実データに直面するときに前処理ロジックが導入され、元のデータの構成が破壊され、生成された結果の構成が不十分になるためです。
対照的に、Kuaishou Large Model Team のソリューションでは、モデルが異なるアスペクト比のデータを直接処理し、元のデータの構成を維持することができます。
将来的には数分、あるいはそれ以上のビデオ生成の需要に対応するために、チームは明らかな効果の低下のない自己回帰に基づくビデオ タイミング拡張ソリューションも開発しました。
Keling はテキスト入力に加えて、カメラの動き、フレームレート、エッジ/キーポイント/深度などのさまざまな制御情報入力もサポートしており、ユーザーに豊富なコンテンツ制御機能を提供します。
大型模型業界は今日まで「転がり」、私たちはあまりにも多くの技術的ハイライトの瞬間を目撃してきましたが、技術的ブレークスルーの本来の目的は依然として残っています。応用。
Kuaishou Keling ビデオ生成モデルは、大手ショートビデオ メーカーから誕生し、アプリケーションの研究が続けられています。 Ke Ling の大型モデルはリリース後すぐにオンラインになり、手間がかからないことは注目に値します。ケーキを描かないでください!ケーキを描かないでください!
Keling の Wensheng ビデオ モデル は、Kuaiying APP でベータ テスト用に正式にオープンしました 現在オープンしているバージョンは 720P ビデオ生成をサポートしており、垂直ビデオ生成機能も間もなく利用可能になります。
Wensheng Video に加えて、Kuaishou は、「AI Dance King」などの Keling モデルに基づく他のアプリケーションも Kuaishou および Kuaiying APP でリリースされました。
主題が 3 つであろうと 2 つであろうと、全身写真をアップロードする限り、キャラクターは数分で音楽に合わせて優雅に踊ることができ、兵馬俑や馬も最もまばゆい民族スタイルで踊ることができます。
ビデオ生成モジュールに加えて、Kuaishou 大型モデル チームは、表情や動きの効果をより鮮やかに表示するために、自社開発の 3D 顔再構成テクノロジー、背景安定化およびリダイレクト モジュールも追加しました。
さらに新しい「AI歌って踊る」技術も登場し、キャラクターが口を開けて歌いながら踊ります。
もう 1 つネタバレしますが、Keling モデルに基づく Tusheng Video 機能も近い将来ユーザーに提供される予定です。
実際、Kuaishou は大手ビデオ メーカーとして、これまでにも言語モデルやヴィンセント グラフ モデルを発表し、大規模なモデルの流行の中で迅速に動きました。
これらのモデルに基づいて、AI コピーライティング、AI 生成画像、AI 生成ビデオ、その他の AI 作成機能が Kuaishou および Kuaiying APP で開始されました。
ビデオ生成に関しても、Kuaishou は多くの大学や科学研究機関と提携して、制御可能なモーション ビデオ生成アルゴリズム Direct-a-Video、マルチモーダル生成アルゴリズム Video-LaVIT、 I2V アダプターやマルチモーダル美的評価モデル UNIAA などの主要テクノロジーは、Keling モデルに深い技術的蓄積を蓄積してきました。
さて、Kuaishou の完全な Wensheng ビデオ機能がついに堂々のデビューを果たしました。ユニークなシーンの利点と幅広いアプリケーション シナリオを備えたショート ビデオ トラックの巨人として、Kuaishou がそのビデオ生成機能を世界で最初に実践することを期待しています。短いビデオシナリオ。
AI ビデオ作成に興味がある場合は、Kuaiying APP にアクセスして調べてみてください。
ポータル: https://www.php.cn/link/1e4dc58a5c8c8908a4d317d6ef44a4d0
以上がKuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。