Google は新しいビデオ フレームワークをリリースしました:
あなたの顔の写真とスピーチの録音だけがあれば、本物のようなスピーチのビデオを取得できます。
ビデオの長さは可変で、現在の例では最大 10 秒です。
口の形にしても表情にしても、とても自然であることがわかります。
入力画像が上半身全体をカバーしている場合、リッチジェスチャと一致させることもできます:
それを読んだネチズンは次のように言いました:
はい。これにより、将来的にはオンラインビデオ会議のために髪を整えたり、着替えたりする必要がなくなりました。
まあ、ポートレートを撮って音声音声を録音するだけです (手動の犬の頭)
あなたの声を使ってポートレートを制御し、ビデオを生成します
このフレームワークは VLOGGER と呼ばれます。
これは主に拡散モデルに基づいており、2 つの部分で構成されています。
1 つはランダムな人間から 3D モーションへの拡散モデルです。
もう 1 つは、テキストから画像へのモデルを強化するための新しい拡散アーキテクチャです。
このうち、前者はオーディオ波形を入力として使用して、目、表情やジェスチャー、全体的な身体の姿勢などを含むキャラクターの身体制御アクションを生成します。
後者は、大規模な画像拡散モデルを拡張し、予測されたアクションを使用して対応するフレームを生成するために使用される時間次元の画像間モデルです。
結果を特定のキャラクター画像に適合させるために、VLOGGER はパラメータ画像のポーズ マップも入力として受け取ります。
VLOGGER のトレーニングは、非常に大規模なデータセット (MENTOR という名前) 上で完了します。 ######それはどれくらい大きいですか?長さは 2,200 時間で、合計 800,000 文字のビデオが含まれています。
その中で、テスト セットのビデオの長さも 120 時間、合計 4,000 文字です。
Google によると、VLOGGER の最も優れたパフォーマンスはその多様性にあります。
下の図に示すように、最終的なピクセル画像の色が濃い (赤) ほど、アクションが豊富になります。 。
業界のこれまでの同様の手法と比較した場合、VLOGGER の最大の利点は、全員をトレーニングする必要がなく、顔検出やトリミングに依存しないことです。生成されたビデオは完成しています (顔と唇の両方、体の動きなどを含む)。
具体的には、次の表に示すように:
顔の再現方法では、オーディオやテキストを使用してビデオ生成を制御することはできません。
Audio-to-motion では、音声を 3D の顔の動きにエンコードすることで音声を生成できますが、生成される効果は十分に現実的ではありません。
リップシンクはさまざまなテーマのビデオを処理できますが、シミュレートできるのは口の動きだけです。
比較すると、後者の 2 つの方法、SadTaker と Styletalk は Google VLOGGER に最も近いパフォーマンスを示しますが、本体を制御したりビデオをさらに編集したりできないという点でも劣っています。
ビデオ編集と言えば、下図にあるように、キャラクターを黙らせたり、目を閉じたり、左目だけ閉じたり、片方の目だけ開けたりすることができるのがVLOGGERモデルの応用例です。クリック:
もう 1 つのアプリケーションはビデオ翻訳です:
たとえば、元のビデオの英語の音声を同じ口の形でスペイン語に変更します。
ネチズンは苦情を申し立てました
最終的に、「古いルール」に従って、Googleはモデルをリリースせず、現在確認できるのはより多くの効果と論文だけです。
そうですね、多くの不満があります:
モデルの画質、口の形が正しくない、依然としてロボットのように見えるなど。
したがって、否定的なレビューをためらわずに残す人もいます:
これが Google のレベルですか?
「VLOGGER」という名前がちょっと残念です。
——OpenAI の Sora と比較すると、このネチズンの発言は確かに不合理ではありません。 。 ######どう思いますか?
その他のエフェクト:
https://enriccorona.github.io/vlogger/
全文:
https://enriccorona.github 。 io/vlogger/paper.pdf
以上がGoogleが「Vlogger」モデルをリリース:1枚の写真から10秒の動画が生成されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Honor MagicBook Pro14は驚くほどリリースされ、AIPCの新しい時代をリードしています! MWCのオープニングの前夜、Honorは中国で新しいMagicBook Pro14ノートブックを最初にリリースし、同時にAIテクノロジーでラップトップエクスペリエンスを包括的に革新するためのAIPC 2.0戦略を開始しました。 Honor AIPC2.0戦略は、AIコア駆動型のインテリジェントハードウェア、AIエージェント対応のヒューマンコンピューター相互作用、およびAIサービスフローのクロスエンドエコシステムをカバーしています。高度に賞賛されている「One Sents Things」AI Interactive Experience of Honor携帯電話もMagicBook Pro14に実装され、ユーザーは音声コマンドだけで操作を完了することができます。新しいHonorturboxテクノロジー、Magicboを装備しています

上海ジョトン大学、上海アイラブ、および香港中国大学の研究者は、Visual Language Big Model(LVLM)のパフォーマンスを大幅に改善するために少量のデータのみを必要とする視覚RFT(視覚エンハンスメントファインチューニング)オープンソースプロジェクトを開始しました。 Visual-RFTは、DeepSeek-R1のルールベースの強化学習アプローチとOpenAIの強化微調整(RFT)パラダイムを巧みに組み合わせて、このアプローチをテキストフィールドから視野に拡張しました。視覚的サブカテゴリ化やオブジェクト検出などのタスクの対応するルール報酬を設計することにより、Visual-RFTは、テキスト、数学的推論、その他のフィールドに限定されているDeepSeek-R1メソッドの制限を克服し、LVLMトレーニングの新しい方法を提供します。 Vis


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版
中国語版、とても使いやすい
