検索
ホームページハードウェアチュートリアルハードウェアのレビューGoogleが「Vlogger」モデルをリリース:1枚の写真から10秒の動画が生成される

Googleが「Vlogger」モデルをリリース:1枚の写真から10秒の動画が生成される

Mar 21, 2024 pm 12:21 PM
グーグルロボット翻訳する効果英語美しい写真ビデオ編集

Google は新しいビデオ フレームワークをリリースしました:

あなたの顔の写真とスピーチの録音だけがあれば、本物のようなスピーチのビデオを取得できます。

ビデオの長さは可変で、現在の例では最大 10 秒です。

口の形にしても表情にしても、とても自然であることがわかります。

入力画像が上半身全体をカバーしている場合、リッチジェスチャと一致させることもできます:

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

それを読んだネチズンは次のように言いました:

はい。これにより、将来的にはオンラインビデオ会議のために髪を整えたり、着替えたりする必要がなくなりました。

まあ、ポートレートを撮って音声音声を録音するだけです (手動の犬の頭)

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

あなたの声を使ってポートレートを制御し、ビデオを生成します

このフレームワークは VLOGGER と呼ばれます。

これは主に拡散モデルに基づいており、2 つの部分で構成されています。

1 つはランダムな人間から 3D モーションへの拡散モデルです。

もう 1 つは、テキストから画像へのモデルを強化するための新しい拡散アーキテクチャです。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

このうち、前者はオーディオ波形を入力として使用して、目、表情やジェスチャー、全体的な身体の姿勢などを含むキャラクターの身体制御アクションを生成します。

後者は、大規模な画像拡散モデルを拡張し、予測されたアクションを使用して対応するフレームを生成するために使用される時間次元の画像間モデルです。

結果を特定のキャラクター画像に適合させるために、VLOGGER はパラメータ画像のポーズ マップも入力として受け取ります。

VLOGGER のトレーニングは、非常に大規模なデータセット (MENTOR という名前) 上で完了します。 ######それはどれくらい大きいですか?長さは 2,200 時間で、合計 800,000 文字のビデオが含まれています。

その中で、テスト セットのビデオの長さも 120 時間、合計 4,000 文字です。

Google によると、VLOGGER の最も優れたパフォーマンスはその多様性にあります。

下の図に示すように、最終的なピクセル画像の色が濃い (赤) ほど、アクションが豊富になります。 。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频 業界のこれまでの同様の手法と比較した場合、VLOGGER の最大の利点は、全員をトレーニングする必要がなく、顔検出やトリミングに依存しないことです。生成されたビデオは完成しています (顔と唇の両方、体の動きなどを含む)。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频 具体的には、次の表に示すように:

顔の再現方法では、オーディオやテキストを使用してビデオ生成を制御することはできません。

Audio-to-motion では、音声を 3D の顔の動きにエンコードすることで音声を生成できますが、生成される効果は十分に現実的ではありません。

リップシンクはさまざまなテーマのビデオを処理できますが、シミュレートできるのは口の動きだけです。

比較すると、後者の 2 つの方法、SadTaker と Styletalk は Google VLOGGER に最も近いパフォーマンスを示しますが、本体を制御したりビデオをさらに編集したりできないという点でも劣っています。

ビデオ編集と言えば、下図にあるように、キャラクターを黙らせたり、目を閉じたり、左目だけ閉じたり、片方の目だけ開けたりすることができるのがVLOGGERモデルの応用例です。クリック:

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

もう 1 つのアプリケーションはビデオ翻訳です:

たとえば、元のビデオの英語の音声を同じ口の形でスペイン語に変更します。

ネチズンは苦情を申し立てました

最終的に、「古いルール」に従って、Googleはモデルをリリースせず、現在確認できるのはより多くの効果と論文だけです。

そうですね、多くの不満があります:

モデルの画質、口の形が正しくない、依然としてロボットのように見えるなど。

したがって、否定的なレビューをためらわずに残す人もいます:

これが Google のレベルですか?

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

「VLOGGER」という名前がちょっと残念です。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

——OpenAI の Sora と比較すると、このネチズンの発言は確かに不合理ではありません。 。 ######どう思いますか?

その他のエフェクト:

https://enriccorona.github.io/vlogger/

全文:

https://enriccorona.github 。 io/vlogger/paper.pdf

以上がGoogleが「Vlogger」モデルをリリース:1枚の写真から10秒の動画が生成されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事はZAKERで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
MWC新製品の見通し:HonorはDeepseekの「One-SentenceThing」がHonor AI PCに実装されていることを完全に接続しますMWC新製品の見通し:HonorはDeepseekの「One-SentenceThing」がHonor AI PCに実装されていることを完全に接続しますMar 12, 2025 pm 02:12 PM

Honor MagicBook Pro14は驚くほどリリースされ、AIPCの新しい時代をリードしています! MWCのオープニングの前夜、Honorは中国で新し​​いMagicBook Pro14ノートブックを最初にリリースし、同時にAIテクノロジーでラップトップエクスペリエンスを包括的に革新するためのAIPC 2.0戦略を開始しました。 Honor AIPC2.0戦略は、AIコア駆動型のインテリジェントハードウェア、AIエージェント対応のヒューマンコンピューター相互作用、およびAIサービスフローのクロスエンドエコシステムをカバーしています。高度に賞賛されている「One Sents Things」AI Interactive Experience of Honor携帯電話もMagicBook Pro14に実装され、ユーザーは音声コマンドだけで操作を完了することができます。新しいHonorturboxテクノロジー、Magicboを装備しています

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できますSFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できますMar 12, 2025 pm 01:03 PM

上海ジョトン大学、上海アイラブ、および香港中国大学の研究者は、Visual Language Big Model(LVLM)のパフォーマンスを大幅に改善するために少量のデータのみを必要とする視覚RFT(視覚エンハンスメントファインチューニング)オープンソースプロジェクトを開始しました。 Visual-RFTは、DeepSeek-R1のルールベースの強化学習アプローチとOpenAIの強化微調整(RFT)パラダイムを巧みに組み合わせて、このアプローチをテキストフィールドから視野に拡張しました。視覚的サブカテゴリ化やオブジェクト検出などのタスクの対応するルール報酬を設計することにより、Visual-RFTは、テキスト、数学的推論、その他のフィールドに限定されているDeepSeek-R1メソッドの制限を克服し、LVLMトレーニングの新しい方法を提供します。 Vis

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい