首頁 >科技週邊 >人工智慧 >抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

WBOY
WBOY轉載
2023-12-14 23:05:291261瀏覽

看!現在正有四位小姐姐在你面前大秀熱舞:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

以為是某些主播在短片平台上發布的作品?

No,No,No。

真實答案是:假的,生成的,而且還是只靠了一張圖的那種!

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

真正的開啟方式是這樣的:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

這就是來自新加坡國立大學和位元組跳動最新的一項研究,名叫MagicAnimate

它的功能簡單來說可以總結為一個公式:一張圖片  一組動作 = 毫無違和感的影片

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

隨著這項技術的公佈,科技圈內掀起了一股軒然大波,眾多科技巨擘和極客們紛紛加入其中

就連HuggingFace CTO都拿自己的頭像體驗了一把:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

順便還以一種幽默的方式開了個玩笑:

這算是健身了吧?我這週可以不去健身房了。

還有相當與時俱進的網友,拿著剛出爐的GTA6(俠盜獵車手6)預告片中的人物玩了一把:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

甚至連表情包都成為了網友們選擇的物件......

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

# #MagicAnimate可以說是把科技圈的目光聚焦到了自己身上,因此也有網友調侃說:

OpenAI可以休息一下了。

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

火,著實火。

一張圖即可產生一段舞

MagicAnimate如此受歡迎,該如何使用呢?

話不多說,我們現在就來手把手地體驗一次。

目前,我們的專案團隊已經在HuggingFace上開放了一個線上體驗頁面

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

操作非常簡單,只需要三個步驟:

  1. 上傳一張靜態人物照片
  2. 上傳想要產生的動作demo影片
  3. 調整參數,點選「Animate」即可

#舉個例子,以下是我的照片和最近全球風靡的《科目三》舞蹈片段:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

#△影片來源:抖音(ID:QC0217)

也可以選擇頁面下方提供的模版進行體驗:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

不過需要注意的是,由於MagicAnimate目前過於火爆,在生成的過程中可能會出現“宕機”的情況:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

即便成功“食用”,可能也得排大隊抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了……

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

##(沒錯!截至發稿,還是沒有等到結果!)

除此之外,MagicAnimate在GitHub中也給出了本地體驗的方式,感興趣的小伙伴可以試試看喔~

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

那麼接下來的一個問題就是:

怎麼做到的?

整體而言,MagicAnimate採用的是基於

擴散模型(diffusion)的一個框架,目的就是增強時間一致性、保持參考影像的真實性,並提高動畫保真度。

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

為此,團隊首先開發了一個

視訊擴散模型(Temporal Consistency Modeling)來編碼時間資訊。

這個模型透過在擴散網路中加入時間注意力模組,來編碼時間訊息,從而確保動畫中各幀之間的時間一致性。

其次,為了保持幀間的外觀一致性,團隊引入了一種新的

外觀編碼器(Appearance Encoder)來保留參考圖像的複雜細節。

這個編碼器與以往使用CLIP編碼的方法有所不同,它能夠提取更密集的視覺特徵,以引導動畫製作,從而更好地保留身份、背景和服裝等資訊

在這兩項創新技術的基礎之上,團隊進一步採用了一種簡單的視頻融合技術

(Video Fusion Technique)來促進長視頻動畫的平滑過渡。

最終,經過兩個基準實驗的驗證,結果顯示MagicAnimate的效果遠遠超過以往的方法

尤其是在具有挑戰性的TikTok舞蹈數據集上,MagicAnimate在視頻保真度方面比最強基線高出38%以上!

以下是團隊給出的定性比較:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

並且與cross-ID的最先進的基準模型相比,我們的結果如下:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

One More Thing

不得不說,像MagicAnimate這樣的項目最近真的非常受歡迎

這不,在它“出道”前不久,阿里團隊也發布了一個名叫Animate Anyone的項目,同樣是只要「一張圖」和「想要的動作」:

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

由此,也有網友提出了疑問:

這似乎是MagicAnimate和AnimateAnyone之間的戰爭。 誰更勝一籌?

抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了

你覺得呢?

請點選以下連結查看論文:https://arxiv.org/abs/2311.16498

以上是抖音跳舞不用真人出鏡,一張照片就能產生高品質影片!位元組新科技連抱抱臉CTO都下場體驗了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除