Google發布了一個新的視訊框架:
只需要一張你的頭像、一段講話錄音,就能得到一個本人栩栩如生的演講影片。
影片長度可變,目前看到的範例最高為10s。
可以看到,無論是口型還是臉部表情,它都非常自然。
如果輸入影像囊括整個上半身,它也能配合豐富的手勢:
網友看完就表示:
有了它,以後咱開線上視訊會議再也不需要整理好髮型、穿好衣服再去了。
嗯,拍一張肖像,錄好演講音頻就可以(手動狗頭)
用聲音控制肖像生成影片
這個框架叫做VLOGGER。
它主要基於擴散模型,並包含兩部分:
一個是隨機的人體到3D運動(human-to-3d-motion)擴散模型。
另一個是用於增強文字到圖像模型的新擴散架構。
其中,前者負責將音訊波形作為輸入,產生人物的身體控制動作,包括眼神、表情和手勢、身體整體姿勢等等。
後者則是一個時間維度的圖像到圖像模型,用於擴展大型圖像擴散模型,使用剛剛預測的動作來產生相應的幀。
為了讓結果符合特定的人物形象,VLOGGER也將參數影像的pose圖作為輸入。
VLOGGER的訓練是在一個超大的資料集(名叫MENTOR)上完成的。
有多大? 全長2200小時,共包含80萬個人物影片。
其中,測試集的影片長度也有120小時長,共4000個人物。
Google介紹,VLOGGER最突出的表現是具備多樣性:
如下圖所示,最後的像素圖顏色越深(紅)的部分,代表動作越豐富。
而和業界先前的同類方法相比,VLOGGER最大的優勢則體現在不需要對每個人進行訓練、也不依賴於臉部偵測和裁剪,並且生成的影片很完整(既包括臉部和唇部,也包括肢體動作)等等。
具體來看,如下表所示:
Face Reenactment方法無法用音訊和文字來控制此類視訊生成。
Audio-to-motion倒是可以音訊生成,方式也是將音訊編碼為3D人臉動作,不過它生成的效果不夠逼真。
Lip sync可以處理不同主題的視頻,但只能模擬嘴部動作。
對比起來,後面的兩種方法SadTaker和Styletalk表現最接近谷歌VLOGGER,但也敗在了不能進行身體控制上,並且也不能進一步編輯視頻。
說到影片編輯,如下圖所示,VLOGGER模型的應用之一就是這個,它可以一鍵讓人物閉嘴、閉眼、只閉左眼或全程睜開:
另一個應用程式則是影片翻譯:
例如將原始影片的英文講話改成口型一致的西班牙文。
網友吐槽
最後,“老規矩”,Google沒有發布模型,現在能看的只有更多效果還有論文。
嗯,吐槽也是不少的:
畫質模型、口型抽風對不上、看起來還是很機器人等等。
因此,有人毫不猶豫打上負評:
這就是Google的水準嗎?
有點對不起「VLOGGER」這個名字了。
——和OpenAI的Sora對比,網友的說法確實也不是沒有道理。 。
大家覺得呢?
更多效果:https://enriccorona.github.io/vlogger/
完整論文:https://enriccorona.github.io/vlogger/paper.pdf
以上是谷歌發布'Vlogger”模型:單張圖片生成10秒視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 Linux新版
SublimeText3 Linux最新版

SublimeText3漢化版
中文版,非常好用

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)