ホームページ >テクノロジー周辺機器 >AI >ビデオ生成における新たなブレークスルー: PixelDance、複雑な動きとクールな特殊効果を簡単に表現
最近、大規模な言語モデルが引き続きニュースの見出しを占め、広く注目されていることに加えて、ビデオ生成技術も大きな進歩を続けており、多くの企業が新しいモデルを続々とリリースしています
まず、Runway は、ビデオ生成の分野を開拓した初期のリーダーの 1 つとして、Gen-2 モデルをアップグレードし、目を引く映画レベルの高解像度を実現しました。同時に、ビデオ生成の一貫性も大幅に向上しました。
# ただし、この一貫性の向上には、ビデオのダイナミクスが犠牲になっているようです。 Gen-2の公式プロモーションビデオを見ると、複数の短いクリップが組み立てられているものの、各クリップのダイナミクスが比較的弱く、キャラクター、動物、オブジェクトの明確なアクションや動きをキャプチャすることが困難であることがわかります。
最近、Meta はビデオ生成モデル Emu Video もリリースしました。 Emu Video の公式例からわかるように、ビデオのダイナミクスは Gen-2 と比較して大幅に改善されていますが、依然として単純なアクションに限定されています。
古典的な Vincent グラフ モデル Stable Diffusion を開発した会社である Stability.ai は、最近、オープンソースのビデオ生成モデル Stable Video Diffusion ( SVD) は、オープンソース コミュニティで多くの注目と議論を集めています。 SVD の効果は Gen-2 と同等ですが、テスト サンプルから、SVD によって生成されたビデオには比較的ダイナミックさが欠けていることがわかります。
#SVD の論文では、SVD によって生成された現在のビデオにはダイナミクスが不十分であると指摘されました。
上記の例は、ビデオ コンテンツが実際に動くように、高い一貫性と豊かなダイナミクスを備えたビデオを 生成することが、ビデオ生成の分野における現在の最大の課題であることを示しています。
この点で、最新の研究結果PixelDance は重要な一歩を踏み出しており、生成された結果のダイナミクスは他の既存のモデルよりも大幅に優れています。業界の注目。
#Twitter の有名な AI ブロガーである @_akhaliq によって転送された PixelDance ニュースは、約 80,000 回の閲覧数を獲得しました
公式 Web サイト (https://makepixelsdance.github.io) で、PixelDance は次のことを提供します。 2 つの異なるビデオ生成モード。
2 つのモードから選択できます。1 つ目は基本モードです。このモードでは、ユーザーはガイド画像とテキストの説明を提供するだけで済み、PixelDance は一貫性の高い動的なビデオを生成できます。誘導画像は実際の写真にすることも、既存のテキスト生成モデルによって生成することもできます。
表示された結果から、実際のスタイル、アニメーション スタイル、2 次元スタイルを PixelDance で生成できます。キャラクターの動き、表情、カメラの視点制御、特殊効果の動きなど、あらゆる魔法のスタイルを処理でき、PixelDance もそれらをうまく完成させることができます。私が言えるのはtqlだけです!
2 つ目は高度なマジック モードで、ユーザーに想像力と創造性を発揮する余地を与えます。このモードでは、ユーザーは 2 つのガイダンス画像とテキストの説明を提供する必要があります。これにより、より難しいビデオ コンテンツをより適切に生成できます。ウェブサイトでは、マジック モードで作成されたさまざまなクールな特殊効果ショットが公開されています。
さらに、公式ウェブサイトでは、すべて PixelDance を使用して制作された 3 分間のショート ストーリー フィルムも公開されています。
非常に衝撃的なのは、PixelDance を使用すると、次のような音楽を作成できるということです。ユーザーが期待するすべてのシーンとそれに対応するアクションを作成するストーリー。現実のシーン (エジプト、万里の長城など) であっても、架空のシーン (異星惑星など) であっても、PixelDance は、豊富なディテールとアクション、さらにはさまざまな特殊効果ショットを備えたビデオを生成できます。
主人公のシロクマさんの黒いシルクハットと赤い蝶ネクタイは、さまざまなシーンでよく映えます。長いビデオを生成するのは、単に無関係な短いビデオ クリップをつなぎ合わせるだけではなくなりました。
このような優れたビデオ生成効果を実現するために、複雑なデータ セットや大規模なモデル トレーニングに依存せず、PixelDance はパブリック WebVid-10M データ セットで 1.5B のみを使用します。大型モデルでは上記の効果が得られます。
論文アドレス: https://arxiv.org/abs/2311.10982
内容を書き直す元の意味を変更せずに、中国語に書き直しました: デモを入手するには、次の Web サイトにアクセスしてください: https://makepixelsdance.github.io
対応する論文「Make Pixels Dance」 :高ダイナミックビデオ生成』の中で、著者はビデオ生成が良好な結果を達成するのが難しい理由を指摘しました。ビデオ生成は、画像生成と比較して、特徴空間が大幅に大きく、アクションの多様性が大幅に大きいという特徴があります。このため、既存のビデオ生成手法では効果的な時間領域のアクション情報を学習することが困難であり、生成されたビデオは高画質ではあるものの、そのダイナミクスは非常に限られています。
上記の問題に対応して、PixelDance は、テキスト ガイダンスと最初と最後のフレーム画像ガイダンスに基づいたビデオ生成方法を提案します。これにより、モデルは、モデルがより完全に注意を払って学習できるようになります。ビデオの動的情報。
ビデオ生成では、画像の最初のフレームがビデオ コンテンツ全体のフレームワークとマテリアルを提供します。同時に、前のビデオ クリップの最後のフレームを次のクリップの最初のフレームのガイドとして使用することで、より長いビデオを生成できます。ビデオ テキストの説明では、ビデオ アクションの具体的な内容が説明されます。最後のフレーム画像ガイダンスは、ビデオ生成プロセスの終了ステータス情報を提供します。著者は、モデルが比較的粗い画像をガイダンスとして受け入れることを可能にする適応方法を提案しています。これにより、ユーザーは基本的な画像編集ツールを使用して終了フレームの画像ガイダンスを取得できるようになります。
公式ウェブサイトの情報は次のとおりです。現在もモデル効果を積極的に反復しており、誰もが試せるモデルが今後 2 ~ 3 か月以内にリリースされる予定です。現在、作者は、テストしたいサンプルを送信するすべての人をサポートする方法も提供しており、現在、いくつかのユーザー テスト サンプルが公式 Web サイトで公開されています。 # #PixelDance を使えば、想像力さえあれば誰でも「100 万ドルの特殊効果マスター」になれるようです。
以上がビデオ生成における新たなブレークスルー: PixelDance、複雑な動きとクールな特殊効果を簡単に表現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。