影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 24, 2023 pm 03:10 PM

ai模型

近期，除了廣受關注的大型語言模型持續佔據頭條，視訊生成技術也在不斷取得重大突破，多家公司已經相繼發布了新的模型

#首先，Runway作為最早探索視訊生成領域的領頭羊之一，升級了其Gen-2模型，帶來了電影級別的高清晰度，令人矚目。同時，影片產生的一致性也得到了重大改進

但是，這種一致性的提升似乎是以犧牲影片動態性為代價的。從 Gen-2 的官方宣傳影片中可以看出，儘管集合了多個短片段，但每個片段的動態性相對較弱，難以捕捉到人物、動物或物體的清晰動作和運動。

近期，Meta 也發布了影片產生模型 Emu Video。從 Emu Video 的官方範例中可以看出，其影片的動態性比 Gen-2 有明顯提高，但仍局限於較為簡單的動作。

影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效

開發出了經典的文生圖模型Stable Diffusion 的公司Stability.ai，也於近日發布了開源視訊生成模型Stable Video Diffusion ( SVD)，引發了開源社群的大量關注和討論。 SVD 效果能和 Gen-2 相當，透過測試範例能看出 SVD 產生的影片也相對缺少動態性。

影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效

在SVD論文中指出了目前SVD產生的影片存在動態不足的問題

上述範例表明，產生有高度一致性且有豐富動態性的視頻，讓視頻內容真正地動起來，是目前視頻生成領域中的最大挑戰。

在這方面，最新的研究成果 PixelDance 邁出了關鍵性的一步，其生成結果的動態性顯著優於目前現有的其它模型，引起了業界的關注。

影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效

Twitter上著名的AI部落客@_akhaliq轉發的PixelDance新聞已經獲得了接近8萬次瀏覽

影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效

#在官網（https://makepixelsdance.github.io）中，PixelDance 給了兩種不同的視訊生成模式。

有兩種模式可以選擇，第一種是基礎模式（Basic Mode）。在這種模式下，使用者只需要提供一張指導圖片和文字描述，PixelDance 就能夠產生一段高度一致且富有動態性的影片。指導圖片可以是真實的照片，也可以是由現有的文生成圖模型產生的

#從展示的結果來看，真實風格、動畫風格、二次元風格、魔幻風格，PixelDance 通通都可以解決，人物動作、臉部表情、相機視角控制、特效動作，Pixeldance 也都可以很好的完成。只能說一句 tql！

影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效

第二種是高階魔法模式（Magic Mode），給了使用者更多發揮想像力和創造力的空間。在這種模式下，用戶需要提供兩張指導圖片文字描述，可以更好地產生更有難度的影片內容。網站中展示了用魔法模式做出的各種酷炫特效鏡頭。

影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效

除此之外，官網還展示了一個完全使用PixelDance 製作的3 分鐘故事短片

非常震撼的一點是，使用PixelDance 能按照用戶預想的一個故事，製作每個場景和對應的動作。不管是真實場景（如埃及、長城等），還是虛幻場景（如外星球），PixelDance 都能生成細節豐富、動作豐富的視頻，甚至各種特效鏡頭也不在話下。

主角北極熊先生的黑色禮帽和紅色領結在各種場景中都得到了很好的保持。現在生成長影片已經不再是單純拼湊不相關的短影片片段了！

而達到這樣拔群的視訊產生效果，並沒有依賴複雜的資料集和大規模的模型訓練，PixelDance 在公開的WebVid-10M 資料集上僅用1.5B大小的模型就達到了上述效果。

影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效

論文網址：https://arxiv.org/abs/2311.10982

重寫內容，不要改變原意，改寫成中文：請造訪以下網址取得demo：https://makepixelsdance.github.io

在對應的論文《Make Pixels Dance: High-Dynamic Video Generation》中，作者指出了影片生成難以做出好效果的原因：相較於圖片生成，影片生成具有特徵空間顯著更大、動作多樣性顯著更強的特點。這就導致了現有的影片產生方法難以學到有效的時域動作訊息，產生的影片雖然圖片品質較高，但動態性非常有限。

針對上述問題，PixelDance 提出了基於文字指導首尾幀圖片指導的影片產生方法，使得模型更充分地關注和學習影片的動態資訊。

影片產生中，首幀圖片提供了整個影片內容的框架和素材。同時，將上一個影片片段的尾幀作為下一個片段的首幀指導，可以產生更長的影片。影片文字描述則描述了影片動作的具體內容。而尾幀圖片指導則為影片產生過程提供了結束狀態的資訊。作者提出了一種適配的方法，使得模型能夠接受相對粗糙的圖片作為指導，這使得用戶可以使用基本的圖片編輯工具來獲得尾幀圖片指導

官網的資訊顯示，目前還在積極地迭代模型效果中，未來2-3 個月內就會放出人人可以試用的模型。目前，作者也提供了途徑支持大家發送想要測試的範例，目前官網中已經放出了一些用戶的測試範例：

影片生成新突破：PixelDance，輕鬆呈現複雜動作與酷炫特效