首頁 >科技週邊 >人工智慧 >復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成

復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成

WBOY
WBOY轉載
2023-10-20 15:01:08642瀏覽

復旦大學聯合華為諾亞方舟實驗室的研究者基於影像擴散模型(LDM)提出了一種迭代式產生高品質視訊的方案 ——VidRD (Reuse and Diffuse)。該方案旨在對生成視訊的品質和序列長度上進行突破,實現了高品質、長序列的可控視訊生成。有效減少了產生視訊幀間的抖動問題,具有較高的研究和實用價值,為當前火熱的AIGC社群貢獻了一份力量。

潛在擴散模型(LDM)是一種基於去噪自編碼器(Denoising Autoencoder)的生成模型,它可以透過逐步去除雜訊來從隨機初始化的資料生成高品質的樣本。但由於在模型訓練和推理過程中都存在著計算和記憶體的限制,一個單獨的 LDM 通常只能產生數量非常有限的視訊幀。儘管現有的工作嘗試使用單獨的預測模型來產生更多的視訊幀,但這也會帶來額外的訓練成本並產生幀級的抖動。

在本文中,受到潛在擴散模型(LDMs)在影像合成方面的顯著成功的啟發,提出了一個名為「Reuse and Diffuse」的框架,簡稱VidRD。該框架可以在 LDM 已經產生的少部分視訊幀之後,產生更多的視訊幀,從而實現迭代式地產生更長、更高品質以及多樣化的視訊內容。 VidRD 載入了預先訓練的圖像 LDM 模型進行高效訓練,並使用添加有時序資訊的 U-Net 網路進行雜訊移除。

復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成


  • #論文標題:Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
  • 論文網址:https://arxiv.org/abs/2309.03549
  • 專案首頁:https://anonymous0x233.github.io/ ReuseAndDiffuse/

本文的主要貢獻如下:

  1. 為了產生更加平滑的視頻,本文基於時序感知的LDM 模型提出了一種迭代式的「text-to-video」 生成方法。透過重複使用已經產生視訊畫面的潛空間特徵以及每次都遵循先前的擴散過程,該方法可以迭代式地產生更多的視訊幀。
  2. 本文設計了一套資料處理方法來產生高品質的 「文字 - 影片」 資料集。針對現有的動作辨識資料集,本文利用多模態大語言模型為其中的影片賦予文字描述。針對影像數據,本文採用隨機縮放和平移的方法來產生更多的影片訓練樣本。
  3. 在UCF-101 資料集上,本文驗證了FVD 和IS 兩種評估指標以及視覺化結果,定量和定性的結果顯示:相較於現有方法,VidRD 模型均取得了更好的效果。

方法介紹

復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成

#圖1.本文提出的VidRD 影片產生框架示意圖

本文認為採用預先訓練的影像LDM 作為高品質視訊合成的LDM 訓練起點是一種高效且明智的選擇。同時,這一觀點得到了 [1, 2] 等研究工作的進一步支持。在這樣的背景下,本文精心設計的模型是基於預先訓練的穩定擴散模型構建,充分借鑒並繼承了其優良的特性。這其中包括一個用於精準潛在表示的變分自編碼器(VAE)和一個強大的去噪網路 U-Net。圖 1 以清晰、直觀的方式展示了該模型的整體架構。

在本文的模型設計中,一個顯著的特點是對預訓練模型權重的充分利用。具體來說,大部分網路層,包括 VAE 的各組件和 U-Net 的上採樣、下採樣層,均使用穩定擴散模型的預訓練權重進行初始化。這項策略不僅能顯著加速模型的訓練過程,還能從一開始就確保模型表現出良好的穩定性和可靠性。本文的模型可以在一個初始的包含少量幀的視訊片段的條件下,透過重複使用原始的潛在特徵和模仿先前的擴散過程,迭代地產生額外的幀。此外,對於用於在像素空間和潛在空間之間進行轉換的自編碼器,本文在其解碼器中註入了和時序相關的網路層,並對這些層進行了微調,以提高時間一致性。

為了確保視訊幀間的連續性,本文在模型中加入了 3D Temp-conv 和 Temp-attn 層。 Temp-conv 層緊接在 3D ResNet 後面,該結構可實現 3D 卷積操作,以捕捉空間和時間的關聯,進而理解視訊序列匯總的動態變化和連續性。 Temp-Attn 結構與 Self-attention 相似,用於分析和理解視訊序列中的幀間關係,使模型能夠精確地同步幀間的運行資訊。這些參數在訓練時隨機初始化,旨在為模型提供時序結構上的理解和編碼。此外,為了適應此模型結構,資料的輸入也做了對應的適應與調整。

復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成

圖2. 本文提出的高品質「文字- 影片」訓練資料集建構方法

為了訓練VidRD 模型,本文提出了一種構建大規模“文本- 視頻” 訓練數據集的方法,如圖2 所示,該方法可以處理“文本- 圖像” 數據和無描述的“文本- 視頻”數據。此外,為了實現高品質的影片生成,本文也嘗試對訓練資料進行了去水印操作。

儘管當前市場上高品質的影片描述資料集相對稀缺,但存在大量的影片分類資料集。這些資料集擁有豐富的影片內容,每段影片都伴隨一個分類標籤。如 Moments-In-Time、Kinetics-700 和 VideoLT 就是三個代表性的大規模視訊分類資料集。 Kinetics-700 涵蓋了 700 個人類動作類別,包含超過 60 萬的影片片段。 Moments-In-Time 則囊括了 339 個動作類別,總共有超過一百萬的影片段落。而 VideoLT 則包含了 1004 個類別和 25 萬段未經編輯的長影片。

為了充分利用現有的影片數據,本文嘗試對這些影片進行自動化地更加詳細的標註。本文採用了 BLIP-2、MiniGPT4 等多模態大語言模型,透過針對影片中的關鍵幀,結合其原始的分類標籤,本文設計了許多 Prompts,以透過模型問答的方式產生標註。這種方法不僅增強了視訊資料的語音訊息,而且可以為現有沒有詳細描述的視訊帶來更全面、細緻的視訊描述,從而實現了更加豐富的視訊標籤生成,以幫助VidRD 模型帶來更好的訓練效果。

此外,針對現有的非常豐富的圖像數據,本文也設計了詳細的方法將圖像數據轉換為視頻格式以進行訓練。具體操作為在影像的不同位置、以不同的速度進行平移和縮放,從而為每個影像賦予獨特的動態展現形式,模擬現實生活中移動相機來捕捉靜止物體的效果。透過這樣的方法,可以有效利用現有的影像資料進行視訊訓練。

效果顯示

描述文字分別為:「Timelapse at the snow land with aurora in the sky.」、「A candle is burning .」、「An epic tornado attacking above a glowing city at night.」、以及「Aerial view of a white sandy beach on the shores of a beautiful sea.」。更多視覺化效果可見項目首頁。

復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成

圖3. 產生效果與現有的方法進行視覺化對比

最後,如圖3 所示,分別為本文產生結果與現有方法Make-A-Video [3] 和Imagen Video [4] 的視覺化比較,展現了本文模型品質較好的生成效果。

以上是復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除