谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了

PHPz

Apr 12, 2023 pm 08:10 PM

影片影像

我們知道，生成模型和多模態視覺語言模型的進展已經為具備前所未有生成真實性和多樣性的大型文本到圖像模型鋪平了道路。這些模型提供了新的創作過程，但僅限於合成新圖像而不是編輯現有圖像。為了彌合這一差距，基於文字的直觀編輯方法可以對生成和真實圖像進行基於文字的編輯，並保留這些圖像的一些原始屬性。與圖像類似，近來文本到視頻模型也提出了很多，但使用這些模型進行視頻編輯的方法卻很少。

在文字指導的影片編輯中，使用者提供輸入影片以及描述產生影片預期屬性的文字 prompt，如下圖 1 所示。目標有以下三個方面，1）對齊，編輯後的視頻應符合輸入文本prompt；2）保真度，編輯後的視頻應保留原始視頻的內容，3）質量，編輯後的視頻應具備高質量。

可以看到，影片編輯比影像編輯更具挑戰性，它需要合成新的動作，而不僅僅是修改視覺外觀。另外還需要保持時間上的一致性。因此，將 SDEdit、Prompt-to-Prompt 等影像層級的編輯方法應用於視訊幀上不足以實現良好的效果。

谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了

#在近日谷歌研究院等發表在arXiv 的一篇論文中，研究者提出了一種新方法Dreamix，它受到了UniTune 的啟發，將文字條件視訊擴散模型（video diffusion model, VDM）應用於影片編輯。

谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了

#論文網址：https://arxiv.org/ pdf/2302.01329.pdf
#專案首頁：https://dreamix-video-editing.github.io/

#文中方法的核心是透過以下兩個主要想法來讓文字條件VDM 保持對輸入影片的高保真度。其一不使用純噪聲作為模型初始化，而是使用原始視頻的降級版本，通過縮小尺寸和添加噪聲僅保留低時空信息；其二通過微調原始視頻上的生成模型來進一步提升對原始視頻的保真度。

微調確保模型了解原始影片的高解析度屬性。輸入影片的簡單微調會促成相對較低的運動可編輯性，這是因為模型學會了更傾向於原始運動而不是遵循文字 prompt。研究者提出了一種新穎的混合微調方法，其中 VDM 也在輸入視訊各個幀的集合上進行微調，並丟棄了它們的時序。混合微調顯著提升了運動編輯的品質。

研究者進一步利用其影片編輯模型提出了一個新的圖像動畫框架，如下圖 2 所示。該框架包含了幾個步驟，例如為圖像中的物件和背景設定動畫、創建動態相機運動等。他們透過幀複製或幾何圖像變換等簡單的圖像處理操作來實現，從而創建粗糙的視訊。接著使用 Dreamix 影片編輯器對影片進行編輯。此外研究者也使用其微調方法進行目標驅動的影片生成，也即 Dreambooth 的影片版本。

谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了

#在實驗展示部分，研究者進行了廣泛的質性研究和人工評估，展現了他們方法的強大能力，具體可參考如下動圖。

谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了

#對於Google這項研究，有人表示，3D 運動和編輯工具可能是下一波論文的熱門主題。

還有人表示：大家可以很快在預算內製作自己的電影了，你所需要的只是一個綠幕以及這項技術：

谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了

#方法概覽

#本文提出了一種新的方法用於影片編輯，具體而言：

透過逆向被破壞影片進行文字引導影片編輯

#他們採用級聯VDM（Video Diffusion Models ），先透過下取樣對輸入視訊就行一定的破壞，然後再加入雜訊。接下來是級聯擴散模型用於採樣過程，並以時間 t 為條件，將視訊升級到最終的時間 - 空間解析度。

在對輸入視訊進行破壞處理的這一過程中，首先需要進行下採樣操作，以得到基礎模型（16 幀24 × 40），然後加入方差為谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了高斯噪聲，從而進一步破壞輸入視訊。

對於上述處理好的視頻，接下來的操作是使用級聯VDM 將損壞的低解析度視頻映射到與文字對齊的高分辨率視頻。這裡的核心思想是，給定一個嘈雜的、時間空間分辨率非常低的視頻，有許多完全可行的、高分辨率的視頻與之對應。本文中基礎模型從損壞的影片開始，它與時間 s 的擴散過程具有相同的雜訊。然後研究用 VDM 來逆向擴散過程直到時間 0。最後透過超解析度模型對影片進行升級。

混合視訊影像微調

#僅利用輸入視訊進行視訊擴散模型的微調會限制物體運動變化，相反，該研究使用了一種混合目標，即除了原始目標（左下角）之外，本文還對無序的幀集進行了微調，這是透過「masked temporal attention」來完成的，以防止時間注意力和卷積被微調（右下）。這種操作允許向靜態影片中添加運動。

谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了

推理

##推理

谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了

在應用程式預處理的基礎上（Aapplication Dependent Pre-processing，下圖左），研究支援多種應用，能將輸入內容轉換為統一的視訊格式。對於圖像到視頻，輸入圖像被複製並被變換，合成帶有一些相機運動的粗略視頻；對於目標驅動視頻生成，其輸入被省略，單獨進行微調以維持保真度。然後使用 Dreamix Video Editor（右）編輯這個粗糙的視頻：即前面講到的，首先通過下採樣破壞視頻，添加噪聲。然後應用微調的文字引導視訊擴散模型，將影片升級到最終的時間空間解析度。

######實驗結果#########影片編輯：下圖中Dreamix 將動作改為舞蹈，外觀由猴子變成熊，但影片中主體的基本屬性沒有改變：#######

谷歌搶先手發布影片生成類AIGC，網友：可以客製化電影了