ホームページ >テクノロジー周辺機器 >AI >Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される

Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される

王林転載: 2024-03-20 16:41:48658ブラウズ

Google は新しいビデオフレームワークをリリースしました:

必要なのはあなたの写真とスピーチの録音だけです。 私のスピーチの本物のようなビデオ。ビデオの長さは可変で、現在の例では最大 10 秒です。

口の形にしても表情

にしても、とても自然であることがわかります。 入力画像が上半身全体をカバーしている場合は、豊富なジェスチャと一致させることもできます。:

ネチズンはそれを終えた後、次のように言いました:

これにより、将来的にはオンラインビデオ会議のために髪を整えたり服を着たりする必要がなくなります。 Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される

まあ、ポートレートを撮って音声を録音してください

(手動の犬の頭)

音声コントロールを使用します。ビデオの生成

このフレームワークは

Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される VLOGGER

と呼ばれます。

これは主に拡散モデルに基づいており、2 つの部分で構成されています。 1 つはランダムな人間から 3D へのモーション (人間から 3D へのモーション) ディフュージョンモデル。

もう 1 つは、テキストから画像へのモデルを強化するための新しい拡散アーキテクチャです。

このうち、前者はオーディオ波形を入力として使用して、目、表情やジェスチャー、全体的な身体の姿勢などを含むキャラクターの身体制御アクションを生成します。

後者は、大規模な画像拡散モデルを拡張し、予測されたアクションを使用して対応するフレームを生成するために使用される時間次元の画像間モデルです。

Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される結果を特定のキャラクター画像に適合させるために、VLOGGER はパラメータ画像の姿勢図も入力として受け取ります。

VLOGGER のトレーニングは、非常に大規模なデータセット

(MENTOR という名前)

上で完了します。＃＃＃＃＃＃それはどれくらい大きいですか？

全長 2,200 時間、合計 800,000 文字のビデオが含まれています

。その中で、テストセットのビデオの長さも 120 時間、合計 4,000 文字です。

Google によると、VLOGGER の最も優れたパフォーマンスはその多様性です。 下の図に示すように、最終的なピクセル画像の色は暗くなります (赤) を表すとアクションが豊かになります。

業界のこれまでの同様の手法と比較した場合、VLOGGER の最大の利点は、各個人のトレーニングが必要なく、顔検出やトリミングに依存しないことです。生成されたビデオは非常に完全です

(顔と唇の両方、体の動きを含む) など。

Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される

具体的には、次の表に示すとおりです。

顔の再現方法では、オーディオやテキストを使用してビデオ生成を制御することはできません。

Audio-to-motion では、音声を 3D の顔の動きにエンコードすることで音声を生成できますが、生成される効果は十分に現実的ではありません。

リップシンクはさまざまなテーマのビデオを処理できますが、シミュレートできるのは口の動きだけです。

比較すると、後者の 2 つの方法である SadTaker と Styletalk は Google VLOGGER に最も近いパフォーマンスを示しますが、本体を制御したりビデオをさらに編集したりできないという点でも劣っています。

Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される

ビデオ編集といえば、下図に示すように、VLOGGER モデルのアプリケーションの 1 つがこれです。ワンクリックで左目を閉じるだけです。または、ずっと目を開けたままにしてください:

Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される

#別のアプリケーションはビデオ翻訳です:

たとえば、次のように変更します。元のビデオの英語の音声を、同じ口の形でスペイン語に変換します。

ネチズンからの苦情

ついに、「古いルール」に従って、Googleはモデルをリリースせず、今私たちが目にできるのは、より多くの効果と論文だけです。

そうですね、多くの不満があります:

モデルの画質、口の形が正しくない、依然としてロボットのように見えるなど。

したがって、否定的なレビューを躊躇せずに残す人もいます:

これが Google のレベルですか?

Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される

「VLOGGER」という名前がちょっと残念です。

Googleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成される

#——OpenAI の Sora と比較すると、このネチズンの発言は確かに不合理ではありません。。＃＃＃＃＃＃どう思いますか？

#その他の効果:

https://enriccorona.github.io/vlogger/

全文:

https://enriccorona.github.io/vlogger/paper.pdf

以上がGoogleが「Vlogger」モデルをリリース：1枚の写真から10秒の動画が生成されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构 github https

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：人工知能がデータセンターの能力と持続可能性に与える二重の影響次の記事：人工知能がデータセンターの能力と持続可能性に与える二重の影響

続きを見る