首頁 >科技週邊 >人工智慧 >生成影片如此簡單,給句提示就行,還能在線上試玩

生成影片如此簡單,給句提示就行,還能在線上試玩

王林
王林轉載
2023-05-20 17:16:191585瀏覽

你輸入文字,讓 AI 來生成視頻,這種想法在以前只出現在人們的想像中,現在,隨著技術的發展,這種功能已經實現了。

近年來,生成式人工智慧在電腦視覺領域引起巨大的關注。隨著擴散模型的出現,從文字 Prompt 產生高品質影像,即文字到影像的合成,已經變得非常流行和成功。

最近的研究試圖透過在影片領域重複文字到圖像擴散模型,將其成功擴展到文字到影片生成和編輯的任務。雖然這樣的方法取得了可喜的成果,但大部分方法都需要使用大量標記資料進行大量訓練,這可能對許多用戶來說太過昂貴。

為了讓影片產生更廉價,Jay Zhangjie Wu 等人去年提出的Tune-A-Video 引入了一種機制,可以將Stable Diffusion (SD) 模型應用到影片領域。只需要調整一個視頻,從而讓訓練工作量大大減少。雖然這比以前的方法效率提升很多,但仍需要進行最佳化。此外,Tune-A-Video 的生成能力僅限於 text-guided 的影片編輯應用,而從頭開始合成影片仍然超出了它的能力範圍。

本文中,來自Picsart AI Resarch (PAIR) 、德州大學奧斯汀分校等機構的研究者在zero-shot 以及無需訓練的情況下,在文字到影片合成的新問題方向上向前邁進了一步,即無需任何優化或微調的情況下根據文字提示生成視訊。

生成影片如此簡單,給句提示就行,還能在線上試玩

  • #論文網址:https://arxiv.org/ pdf/2303.13439.pdf
  • #專案網址:https://github.com/Picsart-AI-Research/Text2Video-Zero
  • #試用網址:https://huggingface.co/spaces/PAIR/Text2Video-Zero

下面我們看看效果如何。例如一隻熊貓在衝浪;一隻熊在時代廣場上跳舞:

生成影片如此簡單,給句提示就行,還能在線上試玩

#該研究還能根據目標生成動作:

生成影片如此簡單,給句提示就行,還能在線上試玩

此外,也能進行邊緣偵測:

生成影片如此簡單,給句提示就行,還能在線上試玩

本文提出的方法的一個關鍵概念是修改預訓練的文字到圖像模型(例如Stable Diffusion),透過時間一致的生成來豐富它。透過建立在已經訓練好的文本到圖像模型的基礎上,本文的方法利用它們出色的圖像生成質量,增強了它們在視頻領域的適用性,而無需進行額外的訓練。

為了加強時間一致性,本文提出兩個創新修改:(1)首先用運動資訊豐富產生幀的潛在編碼,以保持全局場景和背景時間一致;(2 ) 然後使用跨幀注意力機制來保留整個序列中前景物件的上下文、外觀和身分。實驗表明,這些簡單的修改可以產生高品質和時間一致的影片(如圖 1 所示)。

生成影片如此簡單,給句提示就行,還能在線上試玩

儘管其他人的工作是在大規模視訊資料上進行訓練,但本文的方法實現了相似甚至有時更好的性能(如圖 8、9 所示)。

生成影片如此簡單,給句提示就行,還能在線上試玩

生成影片如此簡單,給句提示就行,還能在線上試玩

本文的方法不僅限於文字到影片的合成,也適用於有條件的(見圖6、5)和專門的影片產生(見圖7),以及instruction-guided 的影片編輯,可以稱其為由Instruct-Pix2Pix 驅動的Video Instruct-Pix2Pix(見圖9)。

生成影片如此簡單,給句提示就行,還能在線上試玩

生成影片如此簡單,給句提示就行,還能在線上試玩


生成影片如此簡單,給句提示就行,還能在線上試玩在這篇論文中,本文利用Stable Diffusion (SD)的文本到圖像合成能力來處理zero-shot 情況下文本到視頻的任務。針對視訊生成而非影像生成的需求,SD 應專注於潛在程式碼序列的操作。樸素的方法是從標準高斯分佈獨立取樣m 個潛在程式碼,即

生成影片如此簡單,給句提示就行,還能在線上試玩

# N (0, I) ,並應用DDIM取樣以獲得對應的張量

生成影片如此簡單,給句提示就行,還能在線上試玩

生成影片如此簡單,給句提示就行,還能在線上試玩

,k = 1,…,m,然後解碼以獲得生成的影片序列

生成影片如此簡單,給句提示就行,還能在線上試玩

。然而,如圖 10 的第一行所示,這會導致完全隨機的圖像生成,僅共享

生成影片如此簡單,給句提示就行,還能在線上試玩

所描述的語義,而不具有物體外觀或運動的一致性。

生成影片如此簡單,給句提示就行,還能在線上試玩

為了解決這個問題,本文建議採用以下兩種方法:(i)在潛在編碼

生成影片如此簡單,給句提示就行,還能在線上試玩#之間引入運動動態,以保持全域場景的時間一致性;(ii)使用跨幀注意力機制來保留前景物件的外觀和身分。下面詳細描述了本文使用的方法的每個組成部分,該方法的概述可以在圖 2 中找到。

注意,為了簡化符號,本文將整個潛在程式碼序列表示為:

##實驗

################## ########定性結果###############Text2Video-Zero 的所有應用都表明它成功生成了視頻,其中全局場景和背景具有時間一致性,前景物件的上下文、外觀和身分在整個序列中都得到了保持。 ######

在文字轉影片的情況下,可以觀察到它產生與文字提示良好對齊的高品質影片(見圖 3)。例如,繪製的熊貓可以自然地在街上行走。同樣,使用額外的邊緣或姿勢指導 (見圖 5、圖 6 和圖 7),生成了與 Prompt 和指導相匹配的高質量視頻,顯示出良好的時間一致性和身份保持。

生成影片如此簡單,給句提示就行,還能在線上試玩

#在Video Instruct-Pix2Pix(見圖1)的情況下,產生的視頻相對於輸入影片具有高保真,同時嚴格遵循指令。

與Baseline 比較

#本文將其方法與兩個公開可用的baseline 進行比較:CogVideo 和Tune -A-Video。由於 CogVideo 是一種文字到影片的方法,本文在純文字引導的影片合成場景中與它進行了比較;使用 Video Instruct-Pix2Pix 與 Tune-A-Video 進行比較。

為了進行定量對比,本文使用 CLIP 分數對模型評估,CLIP 分數表示視訊文字對齊程度。透過隨機獲取 CogVideo 生成的 25 個視頻,並根據本文的方法使用相同的提示合成相應的視頻。本文的方法和 CogVideo 的 CLIP 分數分別為 31.19 和 29.63。因此,本文的方法略優於 CogVideo,儘管後者有 94 億個參數並且需要對影片進行大規模訓練。

圖 8 展示了本文提出的方法的幾個結果,並提供了與 CogVideo 的定性比較。這兩種方法在整個序列中都顯示出良好的時間一致性,保留了物件的身份以及背景。本文的方法顯示出更好的文字 - 視訊對齊能力。例如,本文的方法在圖 8 (b) 中正確生成了一個人在陽光下騎自行車的視頻,而 CogVideo 將背景設置為月光。同樣在圖 8 (a) 中,本文的方法正確地顯示了一個人在雪地裡奔跑,而 CogVideo 生成的影片中雪地和奔跑的人是看不清楚的。

Video Instruct-Pix2Pix 的定性結果以及與 per-frame Instruct-Pix2Pix 和 Tune-AVideo 在視覺上的比較如圖 9 所示。雖然 Instruct-Pix2Pix 每幀顯示出良好的編輯效能,但它缺乏時間一致性。這在描繪滑雪者的影片中尤其明顯,影片中的雪和天空使用不同的樣式和顏色繪製。使用 Video Instruct-Pix2Pix 方法解決了這些問題,從而在整個序列中實現了時間上一致的影片編輯。

雖然Tune-A-Video 創建了時間一致的影片生成,但與本文的方法相比,它與指令指導的一致性較差,難以創建本地編輯,並遺失了輸入序列的細節。當看到圖 9 左側中描繪的舞者影片的編輯時,這一點變得顯而易見。與 Tune-A-Video 相比,本文的方法將整件衣服畫得更亮,同時更好地保留了背景,例如舞者身後的牆幾乎保持不變。 Tune-A-Video 繪製了一堵經過嚴重變形的牆。此外,本文的方法更忠實於輸入細節,例如,與Tune-A-Video 相比,Video Instruction-Pix2Pix 使用所提供的姿勢繪製舞者(圖9 左),並顯示輸入影片中出現的所有滑雪人員(如圖9 右側的最後一格所示)。 Tune-A-Video 的所有上述弱點也可以在圖 23、24 中觀察到。

生成影片如此簡單,給句提示就行,還能在線上試玩

生成影片如此簡單,給句提示就行,還能在線上試玩

#

以上是生成影片如此簡單,給句提示就行,還能在線上試玩的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除