復旦大學聯合華為諾亞方舟實驗室的研究者基於影像擴散模型(LDM)提出了一種迭代式產生高品質視訊的方案 ——VidRD (Reuse and Diffuse)。該方案旨在對生成視訊的品質和序列長度上進行突破,實現了高品質、長序列的可控視訊生成。有效減少了產生視訊幀間的抖動問題,具有較高的研究和實用價值,為當前火熱的AIGC社群貢獻了一份力量。
潛在擴散模型(LDM)是一種基於去噪自編碼器(Denoising Autoencoder)的生成模型,它可以透過逐步去除雜訊來從隨機初始化的資料生成高品質的樣本。但由於在模型訓練和推理過程中都存在著計算和記憶體的限制,一個單獨的 LDM 通常只能產生數量非常有限的視訊幀。儘管現有的工作嘗試使用單獨的預測模型來產生更多的視訊幀,但這也會帶來額外的訓練成本並產生幀級的抖動。
在本文中,受到潛在擴散模型(LDMs)在影像合成方面的顯著成功的啟發,提出了一個名為「Reuse and Diffuse」的框架,簡稱VidRD。該框架可以在 LDM 已經產生的少部分視訊幀之後,產生更多的視訊幀,從而實現迭代式地產生更長、更高品質以及多樣化的視訊內容。 VidRD 載入了預先訓練的圖像 LDM 模型進行高效訓練,並使用添加有時序資訊的 U-Net 網路進行雜訊移除。
- #論文標題:Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
- 論文網址:https://arxiv.org/abs/2309.03549
- 專案首頁:https://anonymous0x233.github.io/ ReuseAndDiffuse/
本文的主要貢獻如下:
- 為了產生更加平滑的視頻,本文基於時序感知的LDM 模型提出了一種迭代式的「text-to-video」 生成方法。透過重複使用已經產生視訊畫面的潛空間特徵以及每次都遵循先前的擴散過程,該方法可以迭代式地產生更多的視訊幀。
- 本文設計了一套資料處理方法來產生高品質的 「文字 - 影片」 資料集。針對現有的動作辨識資料集,本文利用多模態大語言模型為其中的影片賦予文字描述。針對影像數據,本文採用隨機縮放和平移的方法來產生更多的影片訓練樣本。
- 在UCF-101 資料集上,本文驗證了FVD 和IS 兩種評估指標以及視覺化結果,定量和定性的結果顯示:相較於現有方法,VidRD 模型均取得了更好的效果。
方法介紹
#圖1.本文提出的VidRD 影片產生框架示意圖
本文認為採用預先訓練的影像LDM 作為高品質視訊合成的LDM 訓練起點是一種高效且明智的選擇。同時,這一觀點得到了 [1, 2] 等研究工作的進一步支持。在這樣的背景下,本文精心設計的模型是基於預先訓練的穩定擴散模型構建,充分借鑒並繼承了其優良的特性。這其中包括一個用於精準潛在表示的變分自編碼器(VAE)和一個強大的去噪網路 U-Net。圖 1 以清晰、直觀的方式展示了該模型的整體架構。
在本文的模型設計中,一個顯著的特點是對預訓練模型權重的充分利用。具體來說,大部分網路層,包括 VAE 的各組件和 U-Net 的上採樣、下採樣層,均使用穩定擴散模型的預訓練權重進行初始化。這項策略不僅能顯著加速模型的訓練過程,還能從一開始就確保模型表現出良好的穩定性和可靠性。本文的模型可以在一個初始的包含少量幀的視訊片段的條件下,透過重複使用原始的潛在特徵和模仿先前的擴散過程,迭代地產生額外的幀。此外,對於用於在像素空間和潛在空間之間進行轉換的自編碼器,本文在其解碼器中註入了和時序相關的網路層,並對這些層進行了微調,以提高時間一致性。
為了確保視訊幀間的連續性,本文在模型中加入了 3D Temp-conv 和 Temp-attn 層。 Temp-conv 層緊接在 3D ResNet 後面,該結構可實現 3D 卷積操作,以捕捉空間和時間的關聯,進而理解視訊序列匯總的動態變化和連續性。 Temp-Attn 結構與 Self-attention 相似,用於分析和理解視訊序列中的幀間關係,使模型能夠精確地同步幀間的運行資訊。這些參數在訓練時隨機初始化,旨在為模型提供時序結構上的理解和編碼。此外,為了適應此模型結構,資料的輸入也做了對應的適應與調整。
圖2. 本文提出的高品質「文字- 影片」訓練資料集建構方法
為了訓練VidRD 模型,本文提出了一種構建大規模“文本- 視頻” 訓練數據集的方法,如圖2 所示,該方法可以處理“文本- 圖像” 數據和無描述的“文本- 視頻”數據。此外,為了實現高品質的影片生成,本文也嘗試對訓練資料進行了去水印操作。
儘管當前市場上高品質的影片描述資料集相對稀缺,但存在大量的影片分類資料集。這些資料集擁有豐富的影片內容,每段影片都伴隨一個分類標籤。如 Moments-In-Time、Kinetics-700 和 VideoLT 就是三個代表性的大規模視訊分類資料集。 Kinetics-700 涵蓋了 700 個人類動作類別,包含超過 60 萬的影片片段。 Moments-In-Time 則囊括了 339 個動作類別,總共有超過一百萬的影片段落。而 VideoLT 則包含了 1004 個類別和 25 萬段未經編輯的長影片。
為了充分利用現有的影片數據,本文嘗試對這些影片進行自動化地更加詳細的標註。本文採用了 BLIP-2、MiniGPT4 等多模態大語言模型,透過針對影片中的關鍵幀,結合其原始的分類標籤,本文設計了許多 Prompts,以透過模型問答的方式產生標註。這種方法不僅增強了視訊資料的語音訊息,而且可以為現有沒有詳細描述的視訊帶來更全面、細緻的視訊描述,從而實現了更加豐富的視訊標籤生成,以幫助VidRD 模型帶來更好的訓練效果。
此外,針對現有的非常豐富的圖像數據,本文也設計了詳細的方法將圖像數據轉換為視頻格式以進行訓練。具體操作為在影像的不同位置、以不同的速度進行平移和縮放,從而為每個影像賦予獨特的動態展現形式,模擬現實生活中移動相機來捕捉靜止物體的效果。透過這樣的方法,可以有效利用現有的影像資料進行視訊訓練。
效果顯示
描述文字分別為:「Timelapse at the snow land with aurora in the sky.」、「A candle is burning .」、「An epic tornado attacking above a glowing city at night.」、以及「Aerial view of a white sandy beach on the shores of a beautiful sea.」。更多視覺化效果可見項目首頁。
圖3. 產生效果與現有的方法進行視覺化對比
最後,如圖3 所示,分別為本文產生結果與現有方法Make-A-Video [3] 和Imagen Video [4] 的視覺化比較,展現了本文模型品質較好的生成效果。
以上是復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版
視覺化網頁開發工具

禪工作室 13.0.1
強大的PHP整合開發環境