Google發布了一個新的視訊框架:
只需要一張你的頭像、一段演講錄音,就能得到一個本人栩栩如生的演講影片。
影片長度可變,目前看到的範例最高為 10s。
可以看到,無論是口型還是臉部表情,它都非常自然。
如果輸入影像囊括整個上半身,它也能配合豐富的手勢:
網友看完就表示:
有了它,以後咱開線上視訊會議再也不需要整理好髮型、穿好衣服再去了。
嗯,拍一張肖像,錄好演講音頻就可以(手動狗頭)
#用聲音控制肖像生成視頻
#這個框架名叫VLOGGER。
它主要基於擴散模型,並包含兩部分:
一個是隨機的人體到 3D 運動(human-to-3d-motion)擴散模型。
另一個是用於增強文字到圖像模型的新擴散架構。
其中,前者負責將音訊波形作為輸入,產生人物的身體控制動作,包括眼神、表情和手勢、身體整體姿勢等等。
後者則是一個時間維度的圖像到圖像模型,用於擴展大型圖像擴散模型,使用剛剛預測的動作來產生相應的幀。
為了讓結果符合特定的人物形象,VLOGGER 也將參數影像的 pose 圖作為輸入。
VLOGGER 的訓練是在一個超大的資料集(名叫 MENTOR)上完成的。
有多大?全長 2200 小時,共包含 80 萬個人物影片。
其中,測試集的影片長度也有 120 小時長,共 4000 個人物。
Google介紹,VLOGGER 最突出的表現是具備多樣性:
如下圖所示,最後的像素圖顏色越深(紅)的部分,代表動作越豐富。
而和業界先前的同類方法相比,VLOGGER 最大的優勢則體現在不需要對每個人進行訓練、也不依賴於臉部偵測和裁剪,並且生成的影片很完整(既包括臉部和唇部,也包括肢體動作)等等。
具體來看,如下表所示:
Face Reenactment 方法無法用音訊和文字來控制此類視訊生成。
Audio-to-motion 倒是可以音訊生成,方式也是將音訊編碼為 3D 人臉動作,不過它生成的效果不夠逼真。
Lip sync 可以處理不同主題的視頻,但只能模擬嘴部動作。
對比起來,後面的兩種方法 SadTaker 和 Styletalk 表現最接近谷歌 VLOGGER,但也敗在了不能進行身體控制上,並且也不能進一步編輯視頻。
說到影片編輯,如下圖所示,VLOGGER 模型的應用之一就是這個,它可以一鍵讓人物閉嘴、閉眼、只閉左眼或全程睜眼:
另一個應用程式則是影片翻譯:
例如將原始影片的英文講話改成口型一致的西班牙文。
網友吐槽
最後," 老規矩 ",Google沒有發布模型,現在能看的只有更多效果還有論文。
嗯,吐槽也是不少的:
畫質模型、口型抽風對不上、看起來還是很機器人等等。
因此,有人毫不猶豫打上負評:
這就是Google的水準嗎?
有點對不起 "VLOGGER" 這個名字了。
——和 OpenAI 的 Sora 對比,網友的說法確實也不是沒有道理。 。
大家覺得呢?
更多效果:
https://enriccorona.github.io/vlogger/
完整論文:
https://enriccorona.github .io/vlogger/paper.pdf
#
以上是谷歌發布' Vlogger ”模型:單張圖片生成 10 秒視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

榮耀MagicBookPro14驚艷發布,引領AIPC新時代!在MWC開幕前夕,榮耀搶先在國內發布了全新MagicBookPro14筆記本,並同步推出AIPC2.0戰略,以AI技術全面革新筆記本電腦體驗。榮耀AIPC2.0戰略涵蓋AI內核驅動的智能硬件、AI智能體賦能的人機交互以及AI服務流轉的跨端生態。榮耀手機廣受好評的“一句話的事”AI交互體驗也將在MagicBookPro14上實現,用戶只需語音指令即可完成操作。搭載全新HONORTurboX技術,MagicBo

上海交大、上海AILab和港中文大学的研究人员推出Visual-RFT(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(LVLM)性能。Visual-RFT巧妙地将DeepSeek-R1的基于规则奖励的强化学习方法与OpenAI的强化微调(RFT)范式相结合,成功地将这一方法从文本领域扩展到视觉领域。通过为视觉细分类、目标检测等任务设计相应的规则奖励,Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性,为LVLM训练提供了新的途径。Vis


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

Dreamweaver CS6
視覺化網頁開發工具