ホームページ >テクノロジー周辺機器 >AI >MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

PHPzオリジナル: 2024-07-18 17:06:121002ブラウズ

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

グローバルカメラの動きであっても、プロンプトワードで指定された新しいシーンでリファレンスビデオの動きを複製する必要はありません。またはローカルの身体の動きをクリックするだけで完了します。 MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

論文: https://arxiv.org/abs/2406.05338
ホームページ: https://bujiazi.github.io/motionclone.github.io/
コード: https:// github.com/Bijiazi/MotionClone

この記事では、MotionClone と呼ばれる新しいフレームワークを提案します。モデルのトレーニングや微調整を行わずに、対応するモーション情報を抽出して、新しいモーション情報を直接生成できます。ビデオをテキストプロンプトと組み合わせて、カスタマイズされたモーションを備えたテキスト生成ビデオ (text2video) を実現します。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

以前の研究と比較して、MotionClone には次の利点があります:

トレーニングや微調整が不要: 以前の方法では通常、モーションキューをエンコードするためのトレーニングモデル、または特定のモーションパターンに合わせてビデオ拡散モデルを微調整する必要がありました。。モーションキューをエンコードするトレーニングモデルは、トレーニングドメイン外のモーションに対する汎化能力が低く、既存のビデオ生成モデルを微調整すると、ベースモデルの基礎となるビデオ生成の品質が損なわれる可能性があります。 MotionClone では追加のトレーニングや微調整を導入する必要がなく、ベースモデルの生成品質を最大限に維持しながらモーションの汎化機能が向上します。
モーション品質の向上: 既存のオープンソース Wensheng ビデオモデルでは、大きくて合理的な動きを生成することが困難です。MotionClone は、モーションの合理性を効果的に確保しながら、生成されたビデオのモーション振幅を大幅に強化するために、主成分タイミングアテンションモーションガイダンスを導入します。
空間的位置関係の改善: 直接モーションのクローン作成によって引き起こされる可能性のある空間的意味の不一致を回避するために、MotionClone は、正しい空間的意味情報と時空間的動き情報を支援するクロスアテンションマスクに基づく空間的意味情報ガイダンスを提案します。 .カップリング。

時間的注意モジュールのモーション情報

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

テキスト生成されたビデオ作品では、時間的注意モジュール (Temporal Attendance) は、ビデオのフレーム間相関をモデル化するために広く使用されています。時間的アテンションモジュールのアテンションスコア (アテンションマップスコア) はフレーム間の相関関係を特徴付けるため、直感的なアイデアは、アテンションスコアを完全に一致するように制約することでフレーム間の接続を複製して、モーションクローンを実現できるかどうかです。

しかし、実験により、完全なアテンションマップ (プレーンコントロール) を直接コピーすると、非常に大まかなモーション転送しか実現できないことがわかりました。これは、アテンションの重みのほとんどがノイズまたは非常に微妙なモーション情報に対応しており、組み合わせるのが難しいためです。一方、テキストで指定された新しいシナリオでは、潜在的に効果的な動作のガイダンスが曖昧になります。

この問題を解決するために、MotionClone は主成分の時間的注意ガイダンスメカニズム (一次時間的注意ガイダンス) を導入しています。これは、時間的注意の主要コンポーネントのみを使用してビデオ生成をまばらにガイドし、それによってノイズと微妙な動きをフィルタリングします。情報の影響により、テキストで指定された新しいシナリオでモーションの効果的な複製が可能になります。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

空間意味補正

主成分時間的注意モーションガイダンスは参照ビデオのモーションクローンを実現できますが、動く被写体がユーザーの意図と一致していることを保証できず、ビデオ生成の品質が低下します場合によっては、移動する被写体の脱臼につながる可能性もあります。

上記の問題を解決するために、MotionClone は空間セマンティックガイダンスメカニズム (位置認識セマンティックガイダンス) を導入し、クロスアテンションマスクを通じてビデオの前後の背景領域を分割し、それぞれセマンティック情報を制約することでこれを保証します。空間セマンティクスの合理的なレイアウトにより、時間的な動きと空間セマンティクスの正しい結合が促進されます。

MotionClone実装の詳細

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

DDIM反転: MotionCloneはDDIM反転を使用して入力リファレンスビデオを潜在空間に反転し、リファレンスビデオの時間的注意主成分抽出を実装します。
ガイダンスステージ: 各ノイズ除去中に、MotionClone は主成分の時間的注意モーションガイダンスと空間的セマンティック情報ガイダンスを同時に導入します。これらは連携して、制御可能なビデオ生成のための包括的なモーションとセマンティックガイダンスを提供します。
ガウスマスク: 空間セマンティックガイダンスメカニズムでは、ガウスカーネル関数を使用してクロスアテンションマスクをぼかし、潜在的な構造情報の影響を排除します。

DAVIS データセットからの 30 個のビデオがテストに使用されました。実験結果は、MotionClone が以前のモーション転送方法を超えて、テキストの適合性、タイミングの一貫性、および複数のユーザー調査指標において大幅な改善を達成したことを示しています。具体的な結果を以下の表に示します。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

MotionClone と既存のモーションマイグレーション手法の生成結果を比較すると、MotionClone が優れたパフォーマンスを発揮していることがわかります。

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

要約すると、MotionClone は、トレーニングや微調整を行わずに、リファレンスビデオ内のモーションを、ユーザーが指定したプロンプトワードで指定された新しいシーンに効果的に複製できる、新しいモーション転送フレームワークです。既存の Vincent ビデオモデルのモーションカスタマイズソリューション。

MotionClone は、既存のベースモデルの生成品質を維持することに基づいて、効率的な主成分モーション情報ガイダンスと空間セマンティックガイダンスを導入します。これにより、テキストとのセマンティックアラインメント機能を確保しながら、リファレンスビデオとのモーションの一貫性が大幅に向上します。高品質で制御可能なビデオ生成を実現します。

さらに、MotionClone は豊富なコミュニティモデルに直接適応して多様なビデオ生成を実現でき、非常に高い拡張性を備えています。

以上がMotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

map location github https

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：人間が AI を模倣するための新しい軌道、AI: 狂気に関して言えば、あなたは私の父です次の記事：人間が AI を模倣するための新しい軌道、AI: 狂気に関して言えば、あなたは私の父です

関連記事

続きを見る