ホームページ >テクノロジー周辺機器 >AI >写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

王林転載: 2023-12-03 11:17:21937ブラウズ

最近、マイクロソフトが実施した調査で、ビデオ処理ソフトウェア PS がいかに柔軟であることが明らかになりました。

この調査では、AI に写真を撮る機能を与えるだけで済みます。、写真に写っている人物のビデオを生成したり、キャラクターの表情や動きをテキストで制御したりできます。たとえば、「口を開けて」というコマンドを与えると、ビデオ内のキャラクターが実際に口を開きます。

#コマンドが「悲しい」の場合、彼女は悲しい表情と頭の動きをします。

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

「驚く」コマンドが与えられると、アバターの額の線がぎゅっと絞られます。

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

さらに、音声を提供して、仮想キャラクターの口の形や動きを音声と同期させることもできます。あるいは、アバターが模倣するライブビデオを提供することもできます。

アバターの動きにうなずいたり、振り向いたり、頭を傾けたりするなど、さらにカスタム編集が必要な場合は、この技術もサポートされています

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

この研究は GAIA (Generative AI for Avatar、アバターのための生成 AI) と呼ばれ、そのデモが広まり始めています。ソーシャルメディア。多くの人がその効果を賞賛し、それを死者の「復活」に利用したいと考えています。

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

#しかし、これらのテクノロジーの継続的な進化により、オンライン動画の真実と虚偽の区別が難しくなり、利用されにくくなるのではないかと心配する人もいます。犯罪者による詐欺です。今後も不正防止対策は強化されていくようだ。

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

GAIA にはどのようなイノベーションがありますか?

ゼロサンプルトーキングアバター生成テクノロジーは、音声に基づいて自然なビデオを合成し、生成される口の形、表情、頭の姿勢が音声の内容と一致することを保証することを目的としています。これまでの研究では通常、高品質の結果を達成するために、仮想キャラクターごとに特定のモデルの特定のトレーニングや調整、または推論中にテンプレートビデオの利用が必要でした。最近、研究者は、ターゲットアバターの肖像画画像を外観基準として使用するだけで、ゼロショットトーキングアバターを生成する方法の設計と改善に焦点を当てています。ただし、これらの方法では通常、ワーピングベースのモーション表現や 3D モーファブルモデル (3DMM) などのドメイン事前分布を使用して、タスクの難易度を軽減します。このようなヒューリスティックは効果的ではありますが、多様性を制限し、不自然な結果につながる可能性があります。したがって、データ配布からの直接学習が今後の研究の焦点です

この記事では、マイクロソフトの研究者が、音声やチラシから学習できる GAIA (Generative AI for Avatar) を提案しました。生成プロセスでドメイン事前要素を排除し、自然に話す仮想キャラクタービデオに合成されます。

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

プロジェクトアドレス: https://microsoft.github.io/GAIA/関連プロジェクトの詳細は、このリンクでご覧いただけます

論文リンク: https://arxiv.org/pdf/2311.15230.pdf

#Gaia が 2 つの重要な洞察を明らかにします:

音声を使用して仮想キャラクターの動きを制御しますが、仮想キャラクターの背景と外観はビデオ全体で変更されません。これに触発されて、このペーパーは各フレームの動きと外観を分離し、外観はフレーム間で共有されますが、動きは各フレームに固有です。音声から動きを予測するために、この論文は動きシーケンスを動き潜在シーケンスに符号化し、入力音声で条件付けされた拡散モデルを使用して潜在シーケンスを予測します。 #人が特定の内容を話しているときの表情や身振りには大きな多様性があり、大規模で多様なデータセットが必要です。したがって、この研究では、さまざまな年齢、性別、肌のタイプ、話し方の 16,000 人のユニークな話者で構成される高品質の会話アバターデータセットを収集し、生成結果を自然で多様なものにしました。
上記の 2 つの洞察に基づいて、この記事では、変分オートエンコーダー (VAE) (オレンジ色のモジュール) と拡散モデル (青と緑) で構成される GAIA フレームワークを提案します。モジュール））構成。

#VAE の主な機能は、動きと外観を分解することです。 2 つのエンコーダ (モーションエンコーダとアピアランスエンコーダ) と 1 つのデコーダで構成されます。トレーニング中、モーションエンコーダーへの入力は顔のランドマークの現在のフレームですが、外観エンコーダーへの入力は現在のビデオクリップ内のランダムにサンプリングされたフレームです。次に、エンコーダの出力が最適化されて、現在のフレームが再構築されます。トレーニングされた VAE が取得されると、すべてのトレーニングデータに対して潜在的なアクション (つまり、モーションエンコーダーの出力) が取得されます。

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。次に、この記事では、拡散モデルを使用して音声を予測するトレーニングを行います。ビデオクリップ内のランダムにサンプリングされたフレームのモーション潜在シーケンスに基づいて、生成プロセスに外観情報を提供します。

推論プロセスでは、ターゲットアバターの参照ポートレート画像が与えられると、拡散モデルは画像を次のように変換します。入力された音声シーケンスは、音声の内容に適合する運動電位シーケンスを生成するための条件として使用されます。生成されたモーション潜在シーケンスと参照ポートレート画像は、VAE デコーダーを通過して、発話ビデオ出力を合成します。

調査はデータの観点から構成されており、高精細話顔データセット (HDTF) やカジュアル会話データセット v1&v2 (CC v1&v2) など、さまざまなソースからデータセットを収集しました。これら 3 つのデータセットに加えて、この研究では、7,000 時間のビデオと 8,000 のスピーカー ID を含む大規模な内部発話アバターデータセットも収集しました。データセットの統計概要を表 1に示します。

必要な情報を知るために、この記事では、次のような自動フィルタリング戦略をいくつか提案しています。トレーニングデータの品質:

唇の動きを見えるようにするには、アバターの正面方向がカメラに向かう必要があります;

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

安定性を確保するために、ビデオ内の顔の動きは滑らかである必要があり、急激に揺れてはなりません;

唇の動きが音声と一致しない極端なケースを除外するために、アバターが含まれるフレームマスクを着用しているか黙っている場合は削除する必要があります。

#GAIA は、自然さ、多様性、リップシンクの観点から、ゼロサンプルで話す仮想キャラクターを生成できます。ビジュアル品質の点で優れたパフォーマンスを実現します。研究者の主観的な評価によると、GAIA はすべてのベースライン手法を大幅に上回りました;

トレーニングモデルのサイズは 150M から 2B の範囲であり、その結果は、GAIA がスケーラブルであることを示しました。

GAIA は、制御可能な発話アバターの生成やテキストコマンドの仮想化キャラクター生成など、さまざまなアプリケーションを可能にする汎用的で柔軟なフレームワークです。

音声主導の結果。音声駆動型の話すアバターの生成は、音声から動きを予測することによって実現されます。表 3 と図 2 は、GAIA と MakeItTalk、Audio2Head、および SadTalker メソッドとの定量的および定性的な比較を示しています。

データから、主観的評価の点で GAIA がすべてのベースライン手法をはるかに上回っていることは明らかです。具体的には、図 2 に示すように、基準画像が目を閉じていたり、頭のポーズが異常であったとしても、ベースライン手法の生成結果は通常、基準画像に大きく依存するのに対し、GAIA はさまざまな基準画像に対して良好なパフォーマンスを示します。堅牢で、より高い自然さ、高いリップシンク、より優れたビジュアル品質、およびモーションの多様性を備えた結果を生成します

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

##表 3 による、最高の MSI スコアは、GAIA によって生成されたビデオが優れたモーション安定性を持っていることを示します。 Sync-D スコア 8.528 は実際のビデオスコア (8.548) に近く、生成されたビデオが優れたリップシンクを備えていることを示しています。この研究では、ベースラインと同等の FID スコアを達成しましたが、表 6

## で詳しく説明されているように、拡散トレーニングを行わなかったモデルの方がより良い FID スコアを達成したことが研究で判明したため、さまざまな頭のポーズの影響を受ける可能性があります。写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。

写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。 #

以上が写真からビデオが生成され、口を開ける、うなずく、感情、怒り、悲しみ、喜びはすべて入力によって制御できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

for github https microsoft

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Limin、新しいTL-M12ファンをリリース、ARGB照明効果をサポート、価格はわずか35元次の記事：Limin、新しいTL-M12ファンをリリース、ARGB照明効果をサポート、価格はわずか35元

続きを見る