ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

王林

Mar 01, 2024 am 11:34 AM

業界emo

アリババの EMO により、AI が生成した画像や現実の画像を使って「動く、話す、歌う」ことが簡単になりました。

最近、OpenAI Sora に代表される Vincent ビデオモデルが再び人気を集めています。

テキストベースのビデオ生成に加えて、人間中心のビデオ合成も常に大きな注目を集めています。たとえば、「スピーカーヘッド」ビデオ生成に焦点を当てます。この場合の目標は、ユーザーが提供したオーディオクリップに基づいて表情を生成することです。

技術レベルでは、表現を生成するには、話者の微妙で多様な顔の動きを正確に捉える必要があり、これは同様のビデオ合成タスクにとって大きな課題です。

従来の方法では、通常、ビデオ生成タスクを簡素化するためにいくつかの制限が課されます。たとえば、3D モデルを利用して顔のキーポイントを制限する方法もあれば、生のビデオから頭の動きのシーケンスを抽出して全体の動きをガイドする方法もあります。これらの制限によりビデオ生成の複雑さは軽減されますが、最終的な顔の表情の豊かさと自然さも制限されます。

アリインテリジェントコンピューティング研究所が最近発表した論文では、研究者らは、話者の頭のビデオの信頼性、自然さ、正確さを向上させるために、オーディオキューと顔の動きの間の微妙な関係を調査することに焦点を当てました。

研究者らは、従来の方法ではさまざまな話者の顔の表情や独特のスタイルを適切に捉えることができないことが多いことを発見しました。そこで彼らは、中間3Dモデルや顔のランドマークを使用せずに、オーディオビデオ合成手法を通じて顔の表情を直接レンダリングするEMO（Emote Portrait Alive）フレームワークを提案しました。

論文タイトル: EMO: Emote Portrait Alive - 弱い条件下での Audio2Video 拡散モデルによる表現力豊かなポートレートビデオの生成
論文アドレス: https://arxiv.org/pdf/2402.17485.pdf
プロジェクトホームページ: https://humanaigc.github.io/emote-portrait-alive/

効果の面では、アリババの手法はビデオ全体でシームレスなフレーム遷移を保証し、アイデンティティの一貫性を維持することで、パフォーマンスがより表現力豊かでよりリアルなキャラクターアバタービデオを作成できます。パワーとリアリズムの点で現在の SOTA メソッドよりも優れています。

例えば、イギリスとアルバニアの二重国籍女性シンガー、デュア・リパが歌う「Don't Start Now」を、Soraが生成した東京の女の子キャラクターにEMOで歌わせることができます。 EMO は、英語や中国語を含むさまざまな言語の曲をサポートしており、音声の音色の変化を直感的に識別し、ダイナミックで表現力豊かな AI キャラクターアバターを生成できます。たとえば、AI絵画モデルChilloutMixによって生成された若い女性にTao Zheの「Melody」を歌わせます。

#EMO を使用すると、ディカプリオにアメリカのラッパーエミネムの「ゴジラ」のセクションを演奏するよう依頼するなど、アバターがペースの速いラップソングに追いつくこともできます。もちろん、EMO ではキャラクターが歌うだけでなく、さまざまな言語での音声音声もサポートされており、さまざまなスタイルのポートレート、絵画、さらに 3D モデルや AI 生成コンテンツを本物のようなアニメーションに変換できます。ビデオ。オードリー・ヘプバーンの講演など。

最後に、EMO は、「サイクロン」で Gao Qiqiang が Luo Xiang 教師と連携するなど、異なるキャラクター間の連携も実現できます。

メソッドの概要

キャラクターのポートレートの単一の参照画像が与えられると、私たちの方法は、キャラクターの非常に自然な頭の動きと生き生きとした表情を保持し、提供された音声のピッチを一致させながら、入力音声オーディオクリップと同期したビデオを生成できます。音声、座標の変更。このモデルは、一連のシームレスなカスケードビデオを作成することにより、現実世界のアプリケーションにとって重要な、一貫したアイデンティティと首尾一貫した動きを備えた、話しているポートレートの長いビデオを生成するのに役立ちます。

ネットワークパイプライン

メソッドの概要を次の図に示します。バックボーンネットワークは、ノイズの可能性のある入力の複数のフレームを受信し、各タイムステップでそれらを連続したビデオフレームにノイズ除去しようとします。バックボーンネットワークは、オリジナルの SD 1.5 バージョンと同様の UNet 構造構成を持ちます。特に

以前の作業と同様に、生成されたフレーム間の連続性を確保するために、バックボーンネットワークには時間モジュールが埋め込まれています。
生成されたフレーム内のポートレートの ID の一貫性を維持するために、研究者らはバックボーンネットワークと並行して、ReferenceNet と呼ばれる UNet 構造を展開しました。参照機能。
話すときにキャラクターの動きを動かすために、研究者らはオーディオレイヤーを使用して音声特性をエンコードしました。
話しているキャラクターの動きを制御可能かつ安定させるために、研究者らは顔ロケーターとベロシティレイヤーを使用して弱い条件を提供しました。

バックボーンネットワークの場合、研究者はヒントの埋め込みを使用しなかったため、SD 1.5 UNet 構造のクロスアテンション層を調整しました。参照注意力レイヤー。これらの変更されたレイヤーは、テキスト埋め込みの代わりに、ReferenceNet から取得した参照フィーチャを入力として受け取ります。

トレーニング戦略

トレーニングプロセスは 3 つの段階に分かれています。

最初の段階は画像の事前トレーニングで、バックボーンネットワーク、 ReferenceNet と顔の位置決めネットワークはトレーニングプロセスに組み込まれており、バックボーンネットワークは単一フレームを入力として受け取りますが、ReferenceNet は同じビデオクリップからランダムに選択された異なるフレームを処理します。 Backbone と ReferenceNet はどちらも生の SD から重みを初期化します。

第 2 段階では、研究者らはビデオトレーニングを導入し、時間モジュールとオーディオレイヤーを追加し、ビデオクリップから n f 個の連続フレームをサンプリングしました。そのうち最初の n フレームはモーションフレームでした。時間モジュールは、AnimateDiff からの重みを初期化します。

最後の段階では速度層が統合され、研究者はこの段階で時間モジュールと速度層のみをトレーニングします。このアプローチは、トレーニング中にオーディオ層を意図的に無視するために行われます。話者の表情、口の動き、頭の動きの周波数は主に音声の影響を受けるためです。したがって、これらの要素間には相関関係があると考えられ、モデルは音声ではなく速度信号に基づいてキャラクターの動きを駆動する可能性があります。実験結果は、スピードレイヤーとオーディオレイヤーを同時にトレーニングすると、キャラクターの動きを駆動するオーディオの能力が弱くなることを示しています。

実験結果

実験中の比較に使用された手法には、Wav2Lip、SadTalker、および DreamTalk が含まれます。

図 3 は、この方法と以前の方法の比較結果を示しています。入力として単一の参照画像が提供されると、Wav2Lip は通常、ぼかした口領域を合成し、静的な頭のポーズと最小限の目の動きを特徴とするビデオを生成することがわかります。 DreamTalk の場合、結果によって元の顔が歪められ、顔の表情や頭の動きが制限される可能性があります。本研究で提案した手法は、SadTalker や DreamTalk と比較して、より広い範囲の頭部の動きとより鮮明な表情を生成することができます。

この研究では、リアル、アニメ、3D など、さまざまなポートレートスタイルでのアバタービデオの生成をさらに調査しています。キャラクターは同じ音声オーディオ入力を使用してアニメーション化され、その結果、作成されたビデオでは、異なるスタイル間でほぼ一貫したリップシンクが生成されることがわかりました。

図 5 は、明白な音質特性を持つ音声を処理するときに、私たちの方法でより豊かな表情やアクションを生成できることを示しています。たとえば、下の図の 3 行目では、高音によりキャラクターのより強く、より鮮やかな表現がトリガーされます。さらに、モーションフレームを使用すると、生成されたビデオを拡張できます。つまり、入力オーディオの長さに基づいて、より長い持続時間のビデオを生成できます。図 5 と 6 に示すように、私たちの方法では、大きな動きの間でも、拡張されたシーケンスでキャラクターのアイデンティティが維持されます。

表 1 結果は、この方法がビデオ品質評価において大きな利点があることを示しています。

以上がソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します