搜尋
首頁科技週邊人工智慧時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

在 AI 繪畫領域,阿里提出的 Composer 和史丹佛提出的基於 Stable diffusion 的 ControlNet 引領了可控影像生成的理論發展。但是,業界在可控影片產生的探索依舊處於相對空白的狀態。

相較於影像生成,可控的影片更加複雜,因為除了影片內容的空間的可控性之外,還需要滿足時間維度的可控性。基於此,阿里巴巴和螞蟻集團的研究團隊率先做出嘗試並提出了 VideoComposer,即透過組合式生成範式同時實現影片在時間和空間兩個維度上的可控性。

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

  • #論文網址:https://arxiv.org/abs/2306.02018
  • 專案首頁:https://videocomposer.github.io

前段時間,阿里巴巴在魔搭社群和Hugging Face 低調開源了文生影片大模型,意外地受到國內外開發者的廣泛關注,該模型生成的影片甚至得到馬斯克本尊的回應,模型在魔搭社群上連續多天獲得單日上萬次國際訪問量。

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了


時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

Text-to-Video 在推特

VideoComposer 作為該研究團隊的最新成果,又一次受到了國際社區的廣泛關注。

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了


時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了


時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

VideoComposer 在推特上

############################################### ############事實上,可控性已經成為視覺內容創作的更高基準,其在客製化的影像生成方面取得了顯著進步,但在影片生成領域仍然具有三大挑戰:######
  • 複雜的資料結構,產生的影片需同時滿足時間維度上的動態變化的多樣性和時空維度的內容一致性;
  • 複雜的引導條件,已存在的可控的視頻生成需要複雜的條件是無法人為手動構建的。例如Runway 提出的Gen-1/2 需要依賴深度序列作條件,其能較好的實現視訊間的結構遷移,但無法很好的解決可控性問題;
  • 缺乏運動可控性,運動模式是影片即複雜又抽象的屬性,運動可控性是解決影片生成可控性的必要條件。

在此之前,阿里巴巴提出的Composer 已經證明了組合性對影像生成可控性的提升具有極大的幫助,而VideoComposer 這項研究同樣是基於組合式生成範式,在解決以上三大挑戰的同時提高影片產生的靈活性。具體是將影片分解成三種引導條件,即文字條件、空間條件、和影片特有的時序條件,然後基於此訓練 Video LDM (Video Latent Diffusion Model)。特別地,其將高效的 Motion Vector 作為重要的顯式的時序條件以學習視訊的運動模式,並設計了一個簡單有效的時空條件編碼器 STC-encoder,保證條件驅動視訊的時空連續性。在推理階段,則可以隨機組合不同的條件來控制影片內容。

實驗結果表明,VideoComposer 能夠靈活控制視頻的時間和空間的模式,例如透過單張圖、手繪圖等生成特定的視頻,甚至可以透過簡單的手繪方向輕鬆控制目標的運動風格。該研究在 9 個不同的經典任務上直接測試 VideoComposer 的性能,兩者都獲得滿意的結果,證明了 VideoComposer 通用性。

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

圖(a-c)VideoComposer 能夠產生符合文字、空間和時間條件或其子集的影片;(d )VideoComposer 可以僅利用兩筆畫來生成滿足梵高風格的視頻,同時滿足預期運動模式(紅色筆畫)和形狀模式(白色筆畫)

方法介紹

Video LDM

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了 時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

##隱空間。 時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

Video LDM 首先引入預先訓練的編碼器將輸入的視訊

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

#對應到隱空間表達,其中

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了


。然後,在用預先訓練的解碼器 D 將隱空間映射到像素空間上去

。在 VideoComposer 中,參數設定

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

擴散模型。

###為了學習實際的影片內容分佈###########################,擴散模型學習從常態分佈雜訊中逐步去噪來恢復真實的視覺內容,該過程實際上是在模擬可逆的長度為 T=1000 的馬可夫鏈。為了在隱空間中進行可逆過程,Video LDM 將雜訊注入

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

中,得到雜訊注入的隱變數

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

。然後其透過用去噪函數

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

作用在

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

和輸入條件c 上,那麼其最佳化目標如下:

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

為了充分探討利用空間局部的歸納偏移和序列的時間歸納偏移進行去噪,VideoComposer 將

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

實例化為一個3D UNet,同時使用時序卷積算符和交叉注意機制。

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

#VideoComposer

組合條件。 VideoComposer 將影片分解為三種不同類型的條件,即文字條件、空間條件和關鍵的時序條件,它們可以共同確定影片中的空間和時間模式。 VideoComposer 是一個通用的組合式視訊生成框架,因此,可以根據下游應用程式將更多的自訂條件納入VideoComposer,不限於下述列出的條件:

  • 文字條件:文字(Text) 描述以粗略的視覺內容和運動方面提供影片的直覺指示,這也是常用的T2V 常用的條件;


  • ##空間條件:
  • 單張圖(Single Image),選擇給定影片的第一個畫面作為空間條件來進行影像到影片的生成,以表達該視頻的內容和結構;
  • 單張早圖(Single Sketch),使用PiDiNet 提取第一個視頻幀的草圖作為第二個空間條件;
  • 風格(Style),為了進一步將單張圖像的風格轉移到合成的影片中,選擇圖像嵌入作為風格指導;

##

  • 時序條件:
  • 運動向量(Motion Vector),運動向量作為視訊特有的元素表示為二維向量,即水平和垂直方向。它明確地編碼了相鄰兩幀之間的逐像素移動。由於運動向量的自然屬性,將此條件視為時間平滑合成的運動控制訊號,其從壓縮影片中提取標準MPEG-4 格式的運動向量;
  • ## 深度序列( Depth Sequence),為了引入視訊層級的深度訊息,利用PiDiNet 中的預訓練模型提取視訊畫面的深度圖;
  • 掩膜序列(Mask Sequence),引入管狀掩膜來屏蔽局部時空內容,並強制模型根據可觀察到的信息預測被屏蔽的區域;
  • 草圖序列(Sketch Sequnce),與單一草圖相比,草圖序列可以提供更多的控制細節,從而實現精確的客製化合成。

時空條件編碼器。 序列條件包含豐富且複雜的時空依賴關係,對可控制的指示帶來了較大挑戰。為了增強輸入條件的時序感知,研究設計了一個時空條件編碼器(STC-encoder)來納入空時關係。具體而言,首先應用一個輕量級的空間結構,包括兩個 2D 卷積和一個 avgPooling,用於提取局部空間信息,然後將得到的條件序列被輸入到一個時序 Transformer 層進行時間建模。這樣,STC-encoder 可以促進時間提示的明確嵌入,為多樣化的輸入提供統一的條件植入入口,從而增強幀間一致性。另外,研究在時間維度上重複單一影像和單一草圖的空間條件,以確保它們與時間條件的一致性,從而方便條件植入過程。

經過 STC-encoder 處理條件後,最終的條件序列具有與相同的空間形狀,然後透過元素加法融合。最後,沿著通道維度將合併後的條件序列與連接起來作為控制訊號。對於文本和風格條件,利用交叉注意力機制注入文本和風格指導。

訓練與推理

兩階段訓練策略。 雖然VideoComposer 可以透過影像LDM 的預訓練進行初始化,其能夠在一定程度上緩解訓練難度,但模型難以同時具有時序動態感知的能力和多條件生成的能力,這個會增加訓練組合影片產生的難度。因此,研究採用了兩階段最佳化策略,第一階段透過 T2V 訓練的方法,讓模型初步具有時序建模能力;第二階段在透過組合式訓練來優化 VideoComposer,以達到比較好的表現。

推理。 在推理過程中,採用 DDIM 來提高推理效率。並採用無分類器指導來確保產生結果符合指定條件。生成過程可以形式化如下:

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

其中,ω 是指導比例;c1 和 c2 是兩組條件。這種指導機制在兩條件集合判斷,可以透過強度控制來讓模型有更靈活的控制。

實驗結果

在實驗探索中,該研究證明作為 VideoComposer 作為統一模型具有通用生成框架,並在 9 項經典任務上驗證 VideoComposer 的能力。

本研究的部分結果如下,在靜態圖片到影片產生(圖4)、影片Inpainting(圖5)、靜態草圖產生生影片(圖6)、手繪運動控制影片(圖8)、運動遷移(圖A12)均能反映可控影片生成的優勢。

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了


時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了

團隊介紹

###公開資訊顯示,阿里巴巴在視覺基礎模型上的研究主要圍繞視覺表徵大模型、視覺生成式大模型及其下游應用的研究,並在相關領域已經發表CCF-A 類論文60 餘篇以及在多項行業競賽中獲得10 餘項國際冠軍,例如可控圖像生成方法Composer、圖文預訓練方法RA-CLIP 和RLEG、未裁剪長視訊自監督學習HiCo/HiCo 、說話人臉生成方法LipFormer 等均出自該團隊。 ######

以上是時間、空間可控的影片生成走進現實,阿里大模型新作VideoComposer火了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具