看!現在正有四位小姐姐在你面前大秀熱舞:
以為是某些主播在短片平台上發布的作品?
No,No,No。
真實答案是:假的,生成的,而且還是只靠了一張圖的那種!
真正的開啟方式是這樣的:
這就是來自新加坡國立大學和位元組跳動最新的一項研究,名叫MagicAnimate。
它的功能簡單來說可以總結為一個公式:一張圖片 一組動作 = 毫無違和感的影片 。
隨著這項技術的公佈,科技圈內掀起了一股軒然大波,眾多科技巨擘和極客們紛紛加入其中
就連HuggingFace CTO都拿自己的頭像體驗了一把:
順便還以一種幽默的方式開了個玩笑:
這算是健身了吧?我這週可以不去健身房了。
還有相當與時俱進的網友,拿著剛出爐的GTA6(俠盜獵車手6)預告片中的人物玩了一把:
甚至連表情包都成為了網友們選擇的物件......
# #MagicAnimate可以說是把科技圈的目光聚焦到了自己身上,因此也有網友調侃說:OpenAI可以休息一下了。火,著實火。 一張圖即可產生一段舞MagicAnimate如此受歡迎,該如何使用呢? 話不多說,我們現在就來手把手地體驗一次。 目前,我們的專案團隊已經在HuggingFace上開放了一個線上體驗頁面 操作非常簡單,只需要三個步驟:
#舉個例子,以下是我的照片和最近全球風靡的《科目三》舞蹈片段:
#△影片來源:抖音(ID:QC0217)
也可以選擇頁面下方提供的模版進行體驗:
不過需要注意的是,由於MagicAnimate目前過於火爆,在生成的過程中可能會出現“宕機”的情況:
即便成功“食用”,可能也得排大隊……
##(沒錯!截至發稿,還是沒有等到結果!)
除此之外,MagicAnimate在GitHub中也給出了本地體驗的方式,感興趣的小伙伴可以試試看喔~ 那麼接下來的一個問題就是:怎麼做到的? 整體而言,MagicAnimate採用的是基於擴散模型(diffusion)的一個框架,目的就是增強時間一致性、保持參考影像的真實性,並提高動畫保真度。
為此,團隊首先開發了一個視訊擴散模型(Temporal Consistency Modeling)來編碼時間資訊。
這個模型透過在擴散網路中加入時間注意力模組,來編碼時間訊息,從而確保動畫中各幀之間的時間一致性。 其次,為了保持幀間的外觀一致性,團隊引入了一種新的外觀編碼器(Appearance Encoder)來保留參考圖像的複雜細節。
這個編碼器與以往使用CLIP編碼的方法有所不同,它能夠提取更密集的視覺特徵,以引導動畫製作,從而更好地保留身份、背景和服裝等資訊在這兩項創新技術的基礎之上,團隊進一步採用了一種簡單的視頻融合技術(Video Fusion Technique)來促進長視頻動畫的平滑過渡。
最終,經過兩個基準實驗的驗證,結果顯示MagicAnimate的效果遠遠超過以往的方法尤其是在具有挑戰性的TikTok舞蹈數據集上,MagicAnimate在視頻保真度方面比最強基線高出38%以上! 以下是團隊給出的定性比較: 並且與cross-ID的最先進的基準模型相比,我們的結果如下:不得不說,像MagicAnimate這樣的項目最近真的非常受歡迎
這不,在它“出道”前不久,阿里團隊也發布了一個名叫Animate Anyone的項目,同樣是只要「一張圖」和「想要的動作」:
由此,也有網友提出了疑問:
這似乎是MagicAnimate和AnimateAnyone之間的戰爭。 誰更勝一籌?
你覺得呢?
請點選以下連結查看論文:https://arxiv.org/abs/2311.16498
以上是抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了的詳細內容。更多資訊請關注PHP中文網其他相關文章!