谷歌發布'Vlogger”模型：單張圖片生成10秒視頻-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

谷歌發布'Vlogger”模型：單張圖片生成10秒視頻

王林

Mar 20, 2024 pm 04:41 PM

模型訓練影片編輯

Google發布了一個新的視訊框架：

只需要一張你的頭像、一段講話錄音，就能得到一個本人栩栩如生的演講影片。

影片長度可變，目前看到的範例最高為10s。

可以看到，無論是口型還是臉部表情，它都非常自然。

如果輸入影像囊括整個上半身，它也能配合豐富的手勢：

谷歌發布Vlogger”模型：單張圖片生成10秒視頻

網友看完就表示：

有了它，以後咱開線上視訊會議再也不需要整理好髮型、穿好衣服再去了。

嗯，拍一張肖像，錄好演講音頻就可以（手動狗頭）

谷歌發布Vlogger”模型：單張圖片生成10秒視頻

用聲音控制肖像生成影片

這個框架叫做VLOGGER。

它主要基於擴散模型，並包含兩部分：

一個是隨機的人體到3D運動（human-to-3d-motion）擴散模型。

另一個是用於增強文字到圖像模型的新擴散架構。

谷歌發布Vlogger”模型：單張圖片生成10秒視頻

其中，前者負責將音訊波形作為輸入，產生人物的身體控制動作，包括眼神、表情和手勢、身體整體姿勢等等。

後者則是一個時間維度的圖像到圖像模型，用於擴展大型圖像擴散模型，使用剛剛預測的動作來產生相應的幀。

為了讓結果符合特定的人物形象，VLOGGER也將參數影像的pose圖作為輸入。

VLOGGER的訓練是在一個超大的資料集（名叫MENTOR）上完成的。

有多大？ 全長2200小時，共包含80萬個人物影片。

其中，測試集的影片長度也有120小時長，共4000個人物。

Google介紹，VLOGGER最突出的表現是具備多樣性：

如下圖所示，最後的像素圖顏色越深（紅）的部分，代表動作越豐富。

谷歌發布Vlogger”模型：單張圖片生成10秒視頻

而和業界先前的同類方法相比，VLOGGER最大的優勢則體現在不需要對每個人進行訓練、也不依賴於臉部偵測和裁剪，並且生成的影片很完整（既包括臉部和唇部，也包括肢體動作）等等。

谷歌發布Vlogger”模型：單張圖片生成10秒視頻

具體來看，如下表所示：

Face Reenactment方法無法用音訊和文字來控制此類視訊生成。

Audio-to-motion倒是可以音訊生成，方式也是將音訊編碼為3D人臉動作，不過它生成的效果不夠逼真。

Lip sync可以處理不同主題的視頻，但只能模擬嘴部動作。

對比起來，後面的兩種方法SadTaker和Styletalk表現最接近谷歌VLOGGER，但也敗在了不能進行身體控制上，並且也不能進一步編輯視頻。

谷歌發布Vlogger”模型：單張圖片生成10秒視頻

說到影片編輯，如下圖所示，VLOGGER模型的應用之一就是這個，它可以一鍵讓人物閉嘴、閉眼、只閉左眼或全程睜開：

谷歌發布Vlogger”模型：單張圖片生成10秒視頻

另一個應用程式則是影片翻譯：

例如將原始影片的英文講話改成口型一致的西班牙文。

網友吐槽

最後，“老規矩”，Google沒有發布模型，現在能看的只有更多效果還有論文。

嗯，吐槽也是不少的：

畫質模型、口型抽風對不上、看起來還是很機器人等等。

因此，有人毫不猶豫打上負評：

這就是Google的水準嗎？

谷歌發布Vlogger”模型：單張圖片生成10秒視頻

有點對不起「VLOGGER」這個名字了。

谷歌發布Vlogger”模型：單張圖片生成10秒視頻

——和OpenAI的Sora對比，網友的說法確實也不是沒有道理。。

大家覺得呢？

更多效果：https://enriccorona.github.io/vlogger/

完整論文：https://enriccorona.github.io/vlogger/paper.pdf

以上是谷歌發布'Vlogger”模型：單張圖片生成10秒視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量：建立個人聊天機器人CLI 在最近的過去，個人AI助手的概念似乎是科幻小說。想像一下科技愛好者亞歷克斯（Alex）夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃，精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行，著名的精神科醫生兼神經科學家湯姆·因斯爾（Tom Insel）博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說：“我們要確保WNBA仍然是每個人，球員，粉絲和公司合作夥伴，感到安全，重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言，尤其是在數據科學和生成AI中。在處理大型數據集時，有效的數據操作（存儲，管理和訪問）至關重要。我們以前涵蓋了數字和ST

與替代方案相比，Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前，一個重要的警告：AI性能是非確定性的，並且特定於高度用法。簡而言之，您的里程可能會有所不同。不要將此文章（或任何其他）文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合？Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合：初學者和專業人士指南創建引人注目的投資組合對於確保在人工智能（AI）和機器學習（ML）中的角色至關重要。本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果？倦怠，效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。不過，代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai：AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係？兩週前，Openai提出了強大的短期優惠，在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O，A A A A A

See all articles

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具，用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3漢化版

中文版，非常好用

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

谷歌發布'Vlogger”模型：單張圖片生成10秒視頻

用聲音控制肖像生成影片

網友吐槽

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

MantisBT

SublimeText3 Linux新版

SublimeText3漢化版

Atom編輯器mac版下載

SublimeText3 Mac版

熱門話題