AI 畫圖的著名公司 Stability AI,終於入局 AI 生成影片了。
這週二,基於穩定擴散的視訊生成模型Stable Video Diffusion 推出了,AI 社群立即展開了討論
很多人都表示「我們終於等到了」。
專案連結:https://github.com/Stability-AI/generative-models
現在,你可以利用現有的靜態影像來產生幾秒鐘的影片
基於Stability AI 原有的Stable Diffusion 文生圖模型,Stable Video Diffusion 成為了開源或商業行列中為數不多的視訊生成模型之一。
但目前還不是所有人都可以使用,Stable Video Diffusion 已經開放了用戶候補名單註冊(https://stability.ai/contact)。
根據介紹,穩定視訊傳播可以輕鬆適應各種下游任務,包括透過對多視圖資料集進行微調,從單一影像進行多視圖合成。穩定人工智慧表示,正在計劃建立和擴展這一基礎的各種模型,類似於圍繞穩定擴散建立的生態系統
透過穩定的影片傳播,可以以每秒3到30幀的可自訂幀速率產生14和25幀的影片
在外部評估中, Stability AI 證實這些模型超越了用戶偏好研究中領先的閉源模型:
Stability AI 強調,Stable Video Diffusion 現階段不適用於現實世界或直接的商業應用,後續將根據使用者對安全性和品質的見解和回饋來完善此模型。
論文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models- to-large-datasets
穩定的視訊傳輸是穩定AI開源模型家族中的一員。現在看來,他們的產品已涵蓋圖像、語言、音訊、三維和程式碼等多個模態,這充分證明了他們對提升人工智慧的承諾
穩定視訊擴散模型作為一種高解析度視訊的潛在擴散模型,已經達到了文字到視訊或圖像到視訊的SOTA 水平。最近,透過在小型高品質視訊資料集上插入時間層並進行微調,將2D影像合成訓練的潛在擴散模型轉變為生成視訊模型。然而,文獻中的訓練方法千差萬別,該領域尚未就視頻資料整理的統一策略達成一致
在Stable Video Diffusion 的論文中,Stability AI 確定並評估了成功訓練視頻潛在擴散模型的三個不同階段:文字轉影像預訓練、視訊預訓練和高品質視訊微調。他們還證明了精心準備的預訓練資料集對於產生高品質影片的重要性,並介紹了訓練出強大基礎模型的系統化策劃流程,其中包括了字幕和過濾策略。
Stability AI 在論文中也探討了在高品質資料上對基礎模型進行微調的影響,並訓練出一個可與閉源視訊生成相媲美的文本到視頻模型。該模型為下游任務提供了強大的運動表徵,例如影像到視訊的生成以及對攝影機運動特定的 LoRA 模組的適應性。除此之外,該模型還能夠提供強大的多視圖3D 先驗,這可以作為多視圖擴散模型的基礎,模型以前饋方式生成對象的多個視圖,只需要較小的算力需求,性能也優於基於圖像的方法。
具體而言,訓練模型成功需要經歷以下三個階段:
階段一:影像預訓練。 本文將影像預訓練視為訓練 pipeline 的第一階段,並將初始模型建立在 Stable Diffusion 2.1 的基礎上,這樣一來為視訊模型配備了強大的視覺表示。為了分析影像預訓練的效果,本文也訓練並比較了兩個相同的影片模型。圖 3a 結果表明,影像預訓練模型在品質和提示追蹤方面都更受青睞。
階段 2:影片預訓練資料集。 本文依靠人類偏好作為訊號來創建合適的預訓練資料集。本文所建立的資料集為 LVD(Large Video Dataset ),由 580M 對註解的影片片段組成。
進一步調查發現,產生的資料集中包含一些可能會降低最終視訊模型效能的範例。因此,在本文中我們使用了密集光流來給資料集進行標註
#此外,本文也應用光學字元辨識來清除包含大量文字的剪輯。最後,本文使用 CLIP 嵌入來註釋每個剪輯的第一幀、中間幀和最後一幀。下表提供了 LVD 資料集的一些統計資料:
階段 3:高品質微調。 為了分析影片預訓練對最後階段的影響,本文對三個模型進行了微調,這些模型僅在初始化方面有所不同。圖 4e 為結果。
看起來這是個好的開始。什麼時候,我們能用 AI 直接生成一部電影呢?
以上是Stable Video Diffusion來了,程式碼權重已上線的詳細內容。更多資訊請關注PHP中文網其他相關文章!