検索
ホームページテクノロジー周辺機器AIソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

アリババの EMO により、AI が生成した画像や現実の画像を使って「動く、話す、歌う」ことが簡単になりました。

最近、OpenAI Sora に代表される Vincent ビデオ モデルが再び人気を集めています。

テキストベースのビデオ生成に加えて、人間中心のビデオ合成も常に大きな注目を集めています。たとえば、「スピーカー ヘッド」ビデオ生成に焦点を当てます。この場合の目標は、ユーザーが提供したオーディオ クリップに基づいて表情を生成することです。

技術レベルでは、表現を生成するには、話者の微妙で多様な顔の動きを正確に捉える必要があり、これは同様のビデオ合成タスクにとって大きな課題です。

従来の方法では、通常、ビデオ生成タスクを簡素化するためにいくつかの制限が課されます。たとえば、3D モデルを利用して顔のキーポイントを制限する方法もあれば、生のビデオから頭の動きのシーケンスを抽出して全体の動きをガイドする方法もあります。これらの制限によりビデオ生成の複雑さは軽減されますが、最終的な顔の表情の豊かさと自然さも制限されます。

アリ インテリジェント コンピューティング研究所が最近発表した論文では、研究者らは、話者の頭のビデオの信頼性、自然さ、正確さを向上させるために、オーディオ キューと顔の動きの間の微妙な関係を調査することに焦点を当てました。

研究者らは、従来の方法ではさまざまな話者の顔の表情や独特のスタイルを適切に捉えることができないことが多いことを発見しました。そこで彼らは、中間3Dモデルや顔のランドマークを使用せずに、オーディオビデオ合成手法を通じて顔の表情を直接レンダリングするEMO(Emote Portrait Alive)フレームワークを提案しました。

ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

  • 論文タイトル: EMO: Emote Portrait Alive - 弱い条件下での Audio2Video 拡散モデルによる表現力豊かなポートレート ビデオの生成

  • 論文アドレス: https://arxiv.org/pdf/2402.17485.pdf

  • プロジェクトホームページ: https://humanaigc.github.io/emote-portrait-alive/

効果の面では、アリババの手法はビデオ全体でシームレスなフレーム遷移を保証し、アイデンティティの一貫性を維持することで、パフォーマンスがより表現力豊かでよりリアルなキャラクター アバター ビデオを作成できます。パワーとリアリズムの点で現在の SOTA メソッドよりも優れています。

例えば、イギリスとアルバニアの二重国籍女性シンガー、デュア・リパが歌う「Don't Start Now」を、Soraが生成した東京の女の子キャラクターにEMOで歌わせることができます。 ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されますEMO は、英語や中国語を含むさまざまな言語の曲をサポートしており、音声の音色の変化を直感的に識別し、ダイナミックで表現力豊かな AI キャラクター アバターを生成できます。たとえば、AI絵画モデルChilloutMixによって生成された若い女性にTao Zheの「Melody」を歌わせます。 ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

#EMO を使用すると、ディカプリオにアメリカのラッパー エミネムの「ゴジラ」のセクションを演奏するよう依頼するなど、アバターがペースの速いラップ ソングに追いつくこともできます。 ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されますもちろん、EMO ではキャラクターが歌うだけでなく、さまざまな言語での音声音声もサポートされており、さまざまなスタイルのポートレート、絵画、さらに 3D モデルや AI 生成コンテンツを本物のようなアニメーションに変換できます。ビデオ。オードリー・ヘプバーンの講演など。 ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

最後に、EMO は、「サイクロン」で Gao Qiqiang が Luo Xiang 教師と連携するなど、異なるキャラクター間の連携も実現できます。 ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

メソッドの概要

キャラクターのポートレートの単一の参照画像が与えられると、私たちの方法は、キャラクターの非常に自然な頭の動きと生き生きとした表情を保持し、提供された音声のピッチを一致させながら、入力音声オーディオクリップと同期したビデオを生成できます。音声、座標の変更。このモデルは、一連のシームレスなカスケード ビデオを作成することにより、現実世界のアプリケーションにとって重要な、一貫したアイデンティティと首尾一貫した動きを備えた、話しているポートレートの長いビデオを生成するのに役立ちます。

ネットワークパイプライン

メソッドの概要を次の図に示します。バックボーン ネットワークは、ノイズの可能性のある入力の複数のフレームを受信し、各タイム ステップでそれらを連続したビデオ フレームにノイズ除去しようとします。バックボーン ネットワークは、オリジナルの SD 1.5 バージョンと同様の UNet 構造構成を持ちます。特に

  1. 以前の作業と同様に、生成されたフレーム間の連続性を確保するために、バックボーン ネットワークには時間モジュールが埋め込まれています。

  2. 生成されたフレーム内のポートレートの ID の一貫性を維持するために、研究者らはバックボーン ネットワークと並行して、ReferenceNet と呼ばれる UNet 構造を展開しました。参照機能。

  3. 話すときにキャラクターの動きを動かすために、研究者らはオーディオ レイヤーを使用して音声特性をエンコードしました。

  4. 話しているキャラクターの動きを制御可能かつ安定させるために、研究者らは顔ロケーターとベロシティ レイヤーを使用して弱い条件を提供しました。

ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

バックボーン ネットワークの場合、研究者はヒントの埋め込みを使用しなかったため、SD 1.5 UNet 構造のクロスアテンション層を調整しました。参照注意力レイヤー。これらの変更されたレイヤーは、テキスト埋め込みの代わりに、ReferenceNet から取得した参照フィーチャを入力として受け取ります。

トレーニング戦略

トレーニング プロセスは 3 つの段階に分かれています。

最初の段階は画像の事前トレーニングで、バックボーン ネットワーク、 ReferenceNet と顔の位置決め ネットワークはトレーニング プロセスに組み込まれており、バックボーン ネットワークは単一フレームを入力として受け取りますが、ReferenceNet は同じビデオ クリップからランダムに選択された異なるフレームを処理します。 Backbone と ReferenceNet はどちらも生の SD から重みを初期化します。

第 2 段階では、研究者らはビデオ トレーニングを導入し、時間モジュールとオーディオ レイヤーを追加し、ビデオ クリップから n f 個の連続フレームをサンプリングしました。そのうち最初の n フレームはモーション フレームでした。時間モジュールは、AnimateDiff からの重みを初期化します。

最後の段階では速度層が統合され、研究者はこの段階で時間モジュールと速度層のみをトレーニングします。このアプローチは、トレーニング中にオーディオ層を意図的に無視するために行われます。話者の表情、口の動き、頭の動きの周波数は主に音声の影響を受けるためです。したがって、これらの要素間には相関関係があると考えられ、モデルは音声ではなく速度信号に基づいてキャラクターの動きを駆動する可能性があります。実験結果は、スピード レイヤーとオーディオ レイヤーを同時にトレーニングすると、キャラクターの動きを駆動するオーディオの能力が弱くなることを示しています。

実験結果

実験中の比較に使用された手法には、Wav2Lip、SadTalker、および DreamTalk が含まれます。

図 3 は、この方法と以前の方法の比較結果を示しています。入力として単一の参照画像が提供されると、Wav2Lip は通常、ぼかした口領域を合成し、静的な頭のポーズと最小限の目の動きを特徴とするビデオを生成することがわかります。 DreamTalk の場合、結果によって元の顔が歪められ、顔の表情や頭の動きが制限される可能性があります。本研究で提案した手法は、SadTalker や DreamTalk と比較して、より広い範囲の頭部の動きとより鮮明な表情を生成することができます。

ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

この研究では、リアル、アニメ、3D など、さまざまなポートレート スタイルでのアバター ビデオの生成をさらに調査しています。キャラクターは同じ音声オーディオ入力を使用してアニメーション化され、その結果、作成されたビデオでは、異なるスタイル間でほぼ一貫したリップシンクが生成されることがわかりました。

ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

図 5 は、明白な音質特性を持つ音声を処理するときに、私たちの方法でより豊かな表情やアクションを生成できることを示しています。たとえば、下の図の 3 行目では、高音によりキャラクターのより強く、より鮮やかな表現がトリガーされます。さらに、モーション フレームを使用すると、生成されたビデオを拡張できます。つまり、入力オーディオの長さに基づいて、より長い持続時間のビデオを生成できます。図 5 と 6 に示すように、私たちの方法では、大きな動きの間でも、拡張されたシーケンスでキャラクターのアイデンティティが維持されます。

ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

表 1 結果は、この方法がビデオ品質評価において大きな利点があることを示しています。

ソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されます

以上がソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境