搜尋
首頁科技週邊人工智慧谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

我們知道,生成模型和多模態視覺語言模型的進展已經為具備前所未有生成真實性和多樣性的大型文本到圖像模型鋪平了道路。這些模型提供了新的創作過程,但僅限於合成新圖像而不是編輯現有圖像。為了彌合這一差距,基於文字的直觀編輯方法可以對生成和真實圖像進行基於文字的編輯,並保留這些圖像的一些原始屬性。與圖像類似,近來文本到視頻模型也提出了很多,但使用這些模型進行視頻編輯的方法卻很少。

在文字指導的影片編輯中,使用者提供輸入影片以及描述產生影片預期屬性的文字 prompt,如下圖 1 所示。目標有以下三個方面,1)對齊,編輯後的視頻應符合輸入文本prompt;2)保真度,編輯後的視頻應保留原始視頻的內容,3)質量,編輯後的視頻應具備高質量。

可以看到,影片編輯比影像編輯更具挑戰性,它需要合成新的動作,而不僅僅是修改視覺外觀。另外還需要保持時間上的一致性。因此,將 SDEdit、Prompt-to-Prompt 等影像層級的編輯方法應用於視訊幀上不足以實現良好的效果。

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

#在近日谷歌研究院等發表在arXiv 的一篇論文中,研究者提出了一種新方法Dreamix,它受到了UniTune 的啟發,將文字條件視訊擴散模型(video diffusion model, VDM)應用於影片編輯

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

  • #論文網址:https://arxiv.org/ pdf/2302.01329.pdf
  • #專案首頁:https://dreamix-video-editing.github.io/

#文中方法的核心是透過以下兩個主要想法來讓文字條件VDM 保持對輸入影片的高保真度。其一不使用純噪聲作為模型初始化,而是使用原始視頻的降級版本,通過縮小尺寸和添加噪聲僅保留低時空信息;其二通過微調原始視頻上的生成模型來進一步提升對原始視頻的保真度。

微調確保模型了解原始影片的高解析度屬性。輸入影片的簡單微調會促成相對較低的運動可編輯性,這是因為模型學會了更傾向於原始運動而不是遵循文字 prompt。研究者提出了一種新穎的混合微調方法,其中 VDM 也在輸入視訊各個幀的集合上進行微調,並丟棄了它們的時序。混合微調顯著提升了運動編輯的品質。

研究者進一步利用其影片編輯模型提出了一個新的圖像動畫框架,如下圖  2 所示。該框架包含了幾個步驟,例如為圖像中的物件和背景設定動畫、創建動態相機運動等。他們透過幀複製或幾何圖像變換等簡單的圖像處理操作來實現,從而創建粗糙的視訊。接著使用 Dreamix 影片編輯器對影片進行編輯。此外研究者也使用其微調方法進行目標驅動的影片生成,也即 Dreambooth 的影片版本。

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

#在實驗展示部分,研究者進行了廣泛的質性研究和人工評估,展現了他們方法的強大能力,具體可參考如下動圖。

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

#對於Google這項研究,有人表示,3D 運動和編輯工具可能是下一波論文的熱門主題。

還有人表示:大家可以很快在預算內製作自己的電影了,你所需要的只是一個綠幕以及這項技術:

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

#方法概覽

#本文提出了一種新的方法用於影片編輯,具體而言:

透過逆向被破壞影片進行文字引導影片編輯

#他們採用級聯VDM(Video Diffusion Models ),先透過下取樣對輸入視訊就行一定的破壞,然後再加入雜訊。接下來是級聯擴散模型用於採樣過程,並以時間 t 為條件,將視訊升級到最終的時間 - 空間解析度。

在對輸入視訊進行破壞處理的這一過程中,首先需要進行下採樣操作,以得到基礎模型(16 幀24 × 40),然後加入方差為谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了高斯噪聲,從而進一步破壞輸入視訊。

對於上述處理好的視頻,接下來的操作是使用級聯VDM 將損壞的低解析度視頻映射到與文字對齊的高分辨率視頻。這裡的核心思想是,給定一個嘈雜的、時間空間分辨率非常低的視頻,有許多完全可行的、高分辨率的視頻與之對應。本文中基礎模型從損壞的影片開始,它與時間 s 的擴散過程具有相同的雜訊。然後研究用 VDM 來逆向擴散過程直到時間 0。最後透過超解析度模型對影片進行升級。

混合視訊影像微調

#僅利用輸入視訊進行視訊擴散模型的微調會限制物體運動變化,相反,該研究使用了一種混合目標,即除了原始目標(左下角)之外,本文還對無序的幀集進行了微調,這是透過「masked temporal attention」來完成的,以防止時間注意力和卷積被微調(右下)。這種操作允許向靜態影片中添加運動。

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

推理

##推理

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

在應用程式預處理的基礎上(Aapplication Dependent Pre-processing,下圖左),研究支援多種應用,能將輸入內容轉換為統一的視訊格式。對於圖像到視頻,輸入圖像被複製並被變換,合成帶有一些相機運動的粗略視頻;對於目標驅動視頻生成,其輸入被省略,單獨進行微調以維持保真度。然後使用 Dreamix Video Editor(右)編輯這個粗糙的視頻:即前面講到的,首先通過下採樣破壞視頻,添加噪聲。然後應用微調的文字引導視訊擴散模型,將影片升級到最終的時間空間解析度。

######實驗結果#########影片編輯:下圖中Dreamix 將動作改為舞蹈,外觀由猴子變成熊,但影片中主體的基本屬性沒有改變:#######

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了


Dreamix 也可以產生與輸入影片時間資訊一致的平滑視覺修改,如下圖會滑滑板的小鹿:

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

圖片到影片:當輸入是圖片時,Dreamix 可以使用其影片先驗新增新的移動對象,如下圖中添加了在有霧的森林中出現一頭獨角獸,並放大。

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

已出現企鵝在小屋旁邊:

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

目標驅動影片產生:Dreamix 還可以取得顯示相同主題的圖片集合,並以此主題為運動物件產生新的影片。如下圖是一條在葉子上蠕動的毛毛蟲:

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

除了定性分析外,該研究還進行了基線比較,主要是將Dreamix與Imagen-Video、 Plug-and-Play (PnP) 兩種基線方法進行比較。下表為評分結果:

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

#圖8 展示了Dreamix 編輯的影片和兩個基準範例:文字到視訊模型實現了低保真度的編輯,因為它不以原始影片為條件。 PnP 保留了場景,但不同影格之間缺乏一致性;Dreamix 在這三個目標上都表現良好。

谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了

# 更多技術細節請參閱原始論文。

以上是谷歌搶先手發布影片生成類AIGC,網友:可以客製化電影了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具