ホームページ  >  記事  >  テクノロジー周辺機器  >  MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

PHPz
PHPzオリジナル
2024-07-18 17:06:12922ブラウズ
MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

グローバル カメラの動きであっても、プロンプト ワードで指定された新しいシーンでリファレンス ビデオの動きを複製する必要はありません。またはローカルの身体の動きをクリックするだけで完了します。 MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

  • 論文: https://arxiv.org/abs/2406.05338

  • ホームページ: https://bujiazi.github.io/motionclone.github.io/

  • コード: https:// github.com/Bijiazi/MotionClone

この記事では、MotionClone と呼ばれる新しいフレームワークを提案します。モデルのトレーニングや微調整を行わずに、対応するモーション情報を抽出して、新しいモーション情報を直接生成できます。ビデオをテキスト プロンプトと組み合わせて、カスタマイズされたモーションを備えたテキスト生成ビデオ (text2video) を実現します。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

以前の研究と比較して、MotionClone には次の利点があります:

  • トレーニングや微調整が不要: 以前の方法では通常、モーション キューをエンコードするためのトレーニング モデル、または特定のモーション パターンに合わせてビデオ拡散モデルを微調整する必要がありました。 。モーション キューをエンコードするトレーニング モデルは、トレーニング ドメイン外のモーションに対する汎化能力が低く、既存のビデオ生成モデルを微調整すると、ベース モデルの基礎となるビデオ生成の品質が損なわれる可能性があります。 MotionClone では追加のトレーニングや微調整を導入する必要がなく、ベース モデルの生成品質を最大限に維持しながらモーションの汎化機能が向上します。

  • モーション品質の向上: 既存のオープンソース Wensheng ビデオ モデルでは、大きくて合理的な動きを生成することが困難です。MotionClone は、モーションの合理性を効果的に確保しながら、生成されたビデオのモーション振幅を大幅に強化するために、主成分タイミング アテンション モーション ガイダンスを導入します。

  • 空間的位置関係の改善: 直接モーションのクローン作成によって引き起こされる可能性のある空間的意味の不一致を回避するために、MotionClone は、正しい空間的意味情報と時空間的動き情報を支援するクロスアテンション マスクに基づく空間的意味情報ガイダンスを提案します。 .カップリング。

時間的注意モジュールのモーション情報

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

テキスト生成されたビデオ作品では、時間的注意モジュール (Temporal Attendance) は、ビデオのフレーム間相関をモデル化するために広く使用されています。時間的アテンション モジュールのアテンション スコア (アテンション マップ スコア) はフレーム間の相関関係を特徴付けるため、直感的なアイデアは、アテンション スコアを完全に一致するように制約することでフレーム間の接続を複製して、モーション クローンを実現できるかどうかです。

しかし、実験により、完全なアテンション マップ (プレーン コントロール) を直接コピーすると、非常に大まかなモーション転送しか実現できないことがわかりました。これは、アテンションの重みのほとんどがノイズまたは非常に微妙なモーション情報に対応しており、組み合わせるのが難しいためです。一方、テキストで指定された新しいシナリオでは、潜在的に効果的な動作のガイダンスが曖昧になります。

この問題を解決するために、MotionClone は主成分の時間的注意ガイダンス メカニズム (一次時間的注意ガイダンス) を導入しています。これは、時間的注意の主要コンポーネントのみを使用してビデオ生成をまばらにガイドし、それによってノイズと微妙な動きをフィルタリングします。情報の影響により、テキストで指定された新しいシナリオでモーションの効果的な複製が可能になります。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

空間意味補正

主成分時間的注意モーションガイダンスは参照ビデオのモーションクローンを実現できますが、動く被写体がユーザーの意図と一致していることを保証できず、ビデオ生成の品質が低下します場合によっては、移動する被写体の脱臼につながる可能性もあります。

上記の問題を解決するために、MotionClone は空間セマンティック ガイダンス メカニズム (位置認識セマンティック ガイダンス) を導入し、クロス アテンション マスクを通じてビデオの前後の背景領域を分割し、それぞれセマンティック情報を制約することでこれを保証します。空間セマンティクスの合理的なレイアウトにより、時間的な動きと空間セマンティクスの正しい結合が促進されます。

MotionClone実装の詳細

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

  1. DDIM反転: MotionCloneはDDIM反転を使用して入力リファレンスビデオを潜在空間に反転し、リファレンスビデオの時間的注意主成分抽出を実装します。

  2. ガイダンスステージ: 各ノイズ除去中に、MotionClone は主成分の時間的注意モーション ガイダンスと空間的セマンティック情報ガイダンスを同時に導入します。これらは連携して、制御可能なビデオ生成のための包括的なモーションとセマンティック ガイダンスを提供します。

  3. ガウス マスク: 空間セマンティック ガイダンス メカニズムでは、ガウス カーネル関数を使用してクロスアテンション マスクをぼかし、潜在的な構造情報の影響を排除します。

DAVIS データセットからの 30 個のビデオがテストに使用されました。実験結果は、MotionClone が以前のモーション転送方法を超えて、テキストの適合性、タイミングの一貫性、および複数のユーザー調査指標において大幅な改善を達成したことを示しています。具体的な結果を以下の表に示します。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

MotionClone と既存のモーション マイグレーション手法の生成結果を比較すると、MotionClone が優れたパフォーマンスを発揮していることがわかります。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

要約すると、MotionClone は、トレーニングや微調整を行わずに、リファレンス ビデオ内のモーションを、ユーザーが指定したプロンプト ワードで指定された新しいシーンに効果的に複製できる、新しいモーション転送フレームワークです。既存の Vincent ビデオ モデルのモーション カスタマイズ ソリューション。

MotionClone は、既存のベース モデルの生成品質を維持することに基づいて、効率的な主成分モーション情報ガイダンスと空間セマンティック ガイダンスを導入します。これにより、テキストとのセマンティック アラインメント機能を確保しながら、リファレンス ビデオとのモーションの一貫性が大幅に向上します。高品質で制御可能なビデオ生成を実現します。

さらに、MotionClone は豊富なコミュニティ モデルに直接適応して多様なビデオ生成を実現でき、非常に高い拡張性を備えています。

以上がMotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。