首頁  >  文章  >  硬體教學  >  谷歌發布“ Vlogger ”模型:單張圖片生成 10 秒視頻

谷歌發布“ Vlogger ”模型:單張圖片生成 10 秒視頻

WBOY
WBOY轉載
2024-03-21 12:21:381015瀏覽

Google發布了一個新的視訊框架:

只需要一張你的頭像、一段演講錄音,就能得到一個本人栩栩如生的演講影片。

影片長度可變,目前看到的範例最高為 10s。

可以看到,無論是口型還是臉部表情,它都非常自然。

如果輸入影像囊括整個上半身,它也能配合豐富的手勢:

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

網友看完就表示:

有了它,以後咱開線上視訊會議再也不需要整理好髮型、穿好衣服再去了。

嗯,拍一張肖像,錄好演講音頻就可以(手動狗頭)

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

#用聲音控制肖像生成視頻

#這個框架名叫VLOGGER。

它主要基於擴散模型,並包含兩部分:

一個是隨機的人體到 3D 運動(human-to-3d-motion)擴散模型。

另一個是用於增強文字到圖像模型的新擴散架構。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

其中,前者負責將音訊波形作為輸入,產生人物的身體控制動作,包括眼神、表情和手勢、身體整體姿勢等等。

後者則是一個時間維度的圖像到圖像模型,用於擴展大型圖像擴散模型,使用剛剛預測的動作來產生相應的幀。

為了讓結果符合特定的人物形象,VLOGGER 也將參數影像的 pose 圖作為輸入。

VLOGGER 的訓練是在一個超大的資料集(名叫 MENTOR)上完成的。

有多大?全長 2200 小時,共包含 80 萬個人物影片。

其中,測試集的影片長度也有 120 小時長,共 4000 個人物。

Google介紹,VLOGGER 最突出的表現是具備多樣性:

如下圖所示,最後的像素圖顏色越深(紅)的部分,代表動作越豐富。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

而和業界先前的同類方法相比,VLOGGER 最大的優勢則體現在不需要對每個人進行訓練、也不依賴於臉部偵測和裁剪,並且生成的影片很完整(既包括臉部和唇部,也包括肢體動作)等等。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

具體來看,如下表所示:

Face Reenactment 方法無法用音訊和文字來控制此類視訊生成。

Audio-to-motion 倒是可以音訊生成,方式也是將音訊編碼為 3D 人臉動作,不過它生成的效果不夠逼真。

Lip sync 可以處理不同主題的視頻,但只能模擬嘴部動作。

對比起來,後面的兩種方法 SadTaker 和 Styletalk 表現最接近谷歌 VLOGGER,但也敗在了不能進行身體控制上,並且也不能進一步編輯視頻。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

說到影片編輯,如下圖所示,VLOGGER 模型的應用之一就是這個,它可以一鍵讓人物閉嘴、閉眼、只閉左眼或全程睜眼:

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

另一個應用程式則是影片翻譯:

例如將原始影片的英文講話改成口型一致的西班牙文。

網友吐槽

最後," 老規矩 ",Google沒有發布模型,現在能看的只有更多效果還有論文。

嗯,吐槽也是不少的:

畫質模型、口型抽風對不上、看起來還是很機器人等等。

因此,有人毫不猶豫打上負評:

這就是Google的水準嗎?

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

有點對不起 "VLOGGER" 這個名字了。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

——和 OpenAI 的 Sora 對比,網友的說法確實也不是沒有道理。 。

大家覺得呢?

更多效果:

https://enriccorona.github.io/vlogger/

完整論文:

https://enriccorona.github .io/vlogger/paper.pdf

#

以上是谷歌發布“ Vlogger ”模型:單張圖片生成 10 秒視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:myzaker.com。如有侵權,請聯絡admin@php.cn刪除