搜尋
首頁科技週邊人工智慧影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

近期,除了廣受關注的大型語言模型持續佔據頭條,視訊生成技術也在不斷取得重大突破,多家公司已經相繼發布了新的模型

#首先,Runway作為最早探索視訊生成領域的領頭羊之一,升級了其Gen-2模型,帶來了電影級別的高清晰度,令人矚目。同時,影片產生的一致性也得到了重大改進

但是,這種一致性的提升似乎是以犧牲影片動態性為代價的。從 Gen-2 的官方宣傳影片中可以看出,儘管集合了多個短片段,但每個片段的動態性相對較弱,難以捕捉到人物、動物或物體的清晰動作和運動。

近期,Meta 也發布了影片產生模型 Emu Video。從 Emu Video 的官方範例中可以看出,其影片的動態性比 Gen-2 有明顯提高,但仍局限於較為簡單的動作。

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

開發出了經典的文生圖模型Stable Diffusion 的公司Stability.ai,也於近日發布了開源視訊生成模型Stable Video Diffusion ( SVD),引發了開源社群的大量關注和討論。 SVD 效果能和 Gen-2 相當,透過測試範例能看出 SVD 產生的影片也相對缺少動態性。

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

在SVD論文中指出了目前SVD產生的影片存在動態不足的問題

上述範例表明,產生有高度一致性且有豐富動態性的視頻,讓視頻內容真正地動起來,是目前視頻生成領域中的最大挑戰

在這方面,最新的研究成果 PixelDance 邁出了關鍵性的一步,其生成結果的動態性顯著優於目前現有的其它模型,引起了業界的關注。

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

Twitter上著名的AI部落客@_akhaliq轉發的PixelDance新聞已經獲得了接近8萬次瀏覽

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

#在官網(https://makepixelsdance.github.io)中,PixelDance 給了兩種不同的視訊生成模式。

有兩種模式可以選擇,第一種是基礎模式(Basic Mode)。在這種模式下,使用者只需要提供一張指導圖片和文字描述,PixelDance 就能夠產生一段高度一致且富有動態性的影片。指導圖片可以是真實的照片,也可以是由現有的文生成圖模型產生的

#從展示的結果來看,真實風格、動畫風格、二次元風格、魔幻風格,PixelDance 通通都可以解決,人物動作、臉部表情、相機視角控制、特效動作,Pixeldance 也都可以很好的完成。只能說一句 tql!

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

第二種是高階魔法模式(Magic Mode),給了使用者更多發揮想像力和創造力的空間。在這種模式下,用戶需要提供兩張指導圖片 文字描述,可以更好地產生更有難度的影片內容。網站中展示了用魔法模式做出的各種酷炫特效鏡頭。

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

#

除此之外,官網還展示了一個完全使用PixelDance 製作的3 分鐘故事短片

非常震撼的一點是,使用PixelDance 能按照用戶預想的一個故事,製作每個場景和對應的動作。不管是真實場景(如埃及、長城等),還是虛幻場景(如外星球),PixelDance 都能生成細節豐富、動作豐富的視頻,甚至各種特效鏡頭也不在話下。

主角北極熊先生的黑色禮帽和紅色領結在各種場景中都得到了很好的保持。現在生成長影片已經不再是單純拼湊不相關的短影片片段了!

而達到這樣拔群的視訊產生效果,並沒有依賴複雜的資料集和大規模的模型訓練,PixelDance 在公開的WebVid-10M 資料集上僅用1.5B大小的模型就達到了上述效果。

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

論文網址:https://arxiv.org/abs/2311.10982

重寫內容,不要改變原意,改寫成中文:請造訪以下網址取得demo:https://makepixelsdance.github.io

在對應的論文《Make Pixels Dance: High-Dynamic Video Generation》中,作者指出了影片生成難以做出好效果的原因:相較於圖片生成,影片生成具有特徵空間顯著更大、動作多樣性顯著更強的特點。這就導致了現有的影片產生方法難以學到有效的時域動作訊息,產生的影片雖然圖片品質較高,但動態性非常有限。

針對上述問題,PixelDance 提出了基於文字指導 首尾幀圖片指導的影片產生方法,使得模型更充分地關注和學習影片的動態資訊。

影片產生中,首幀圖片提供了整個影片內容的框架和素材。同時,將上一個影片片段的尾幀作為下一個片段的首幀指導,可以產生更長的影片。影片文字描述則描述了影片動作的具體內容。而尾幀圖片指導則為影片產生過程提供了結束狀態的資訊。作者提出了一種適配的方法,使得模型能夠接受相對粗糙的圖片作為指導,這使得用戶可以使用基本的圖片編輯工具來獲得尾幀圖片指導

官網的資訊顯示,目前還在積極地迭代模型效果中,未來2-3 個月內就會放出人人可以試用的模型。目前,作者也提供了途徑支持大家發送想要測試的範例,目前官網中已經放出了一些用戶的測試範例:

影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效

# #如此看來,有了PixelDance,只要有天馬行空的想像力,人人都可以成為「百萬特效大師」!

以上是影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。