搜尋
首頁科技週邊人工智慧將Transformer用於擴散模型,AI 生成影片達到照片級真實感

在影片產生場景中,用 Transformer 做擴散模型的去噪骨幹已經被李飛飛等研究者證明行得通。這可算得上是 Transformer 在影片產生領域的重大成功。
近日,一項影片生成研究收穫了大量讚譽,甚至被一位 X 網友評價為「好萊塢的終結」。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
真的有這麼好嗎?我們先看下效果:

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

很明顯,這些影片不僅幾乎看不到偽影,而且還非常連貫、細節滿滿,甚至似乎就算真的在電影大片中加上幾幀,也不會明顯違和。

這些影片的作者是來自史丹佛大學、Google、喬治亞理工學院的研究者提出的Window Attention Latent Transformer,即視窗注意力隱Transformer,簡稱 W.A.L.T。此方法成功地將 Transformer 架構整合到了隱視訊擴散模型中。史丹佛大學的李飛飛教授也是這篇論文的作者之一。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
  • 專案網站:https://walt-video-diffusion.github.io/
  • 論文網址:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf  
##  
#在此之前,Transformer 架構已經在許多不同領域取得了巨大成功,但影像和視訊生成式建模領域卻是個例外,目前該領域的主導範式是擴散模型。

在影像、影片生成領域,擴散模型已成為主要範式。但是,在所有視訊擴散方法中,主導的骨幹網路是由一系列卷積和自註意力層構成的 U-Net 架構。人們之所以偏好 U-Net,是因為 Transformer 中全注意力機制的記憶體需求會隨輸入序列長度而二次方成長。在處理視訊這樣的高維度訊號時,這樣的成長模式會讓計算成本變得非常高。

而隱擴散模型(LDM)可在源自自動編碼器的更低維隱空間中運行,從而降低計算需求。在這種情況下,一大關鍵的設計選擇是隱空間的類型:空間壓縮與時空壓縮。

人們往往更喜歡空間壓縮,因為這樣就能使用預訓練的圖像自動編碼器和LDM,而它們使用了大量配對的圖像- 文字資料集進行訓練。但是,如果選擇空間壓縮,則會提升網路複雜度並會讓 Transformer 難以用作網路骨幹(由於記憶體限制),尤其是在產生高解析度視訊時。另一方面,雖然時空壓縮可以緩解這些問題,但它不適合使用配對的圖像 - 文字資料集,而這些資料集往往比影片 - 文字資料集更大更多樣化。

W.A.L.T 是一種用於隱視訊擴散模型(LVDM)的 Transformer 方法。

此方法由兩個階段所構成。

第一階段,用一個自動編碼器將視訊和影像對應到一個統一的低維隱空間。這樣一來,就可以在圖像和視訊資料集上聯合訓練單一生成模型,並顯著降低生成高解析度視訊的計算成本。

對於第二階段,團隊設計了一種用於隱視訊擴散模型的新Transformer 區塊,其由自註意力層構成,這些自註意力層在非重疊、視窗限制的空間和時空注意力之間交替。這項設計的好處主要有兩個:首先,它使用了局部視窗注意力,這能顯著降低計算需求。其次,它有助於聯合訓練,其中空間層可以獨立地處理影像和視訊幀,而時空層則用於建模視訊中的時間關係。

儘管概念上很簡單,但這項研究首次在公共基準上透過實驗證明Transformer 在隱視訊擴散中具有卓越的生成品質和參數效率。

最後,為了展示新方法的可擴展性和效率,該團隊還實驗了高難度的照片級圖像到影片生成任務。他們訓練了三個級聯在一起的模型。其中包括一個基礎隱視頻擴散模型和兩個視頻超分辨率擴散模型。最終能以每秒 8 幀的速度產生解析度為 512×896 的影片。在 UCF-101 基準上,此方法取得了目前最佳的零樣本 FVD 分數。

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

此外,這個模型還可以用來產生具有一致的 3D 攝影機運動的影片。

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

W.A.L.T

#學習視覺token

##在影片的生成式建模領域,一個關鍵的設計決策是隱空間表徵的選擇。理想情況下,我們希望得到一種共享和統一的壓縮視覺表徵,並且可同時用於影像和視訊的生成式建模。

具體來說,給定一個視訊序列 x,目標是學習一個低維度表徵 z,其以一定的時間和空間比例執行了時空壓縮。為了得到視訊和靜態影像的統一表徵,總是需要將影片的第一幀與其餘幀分開編碼。這樣一來,就可以將靜態影像當作只有一格的影片來處理。

基於這種思路,該團隊的實際設計使用了 MAGVIT-v2 token 化器的因果 3D CNN 編碼器 - 解碼器架構。

這一階段之後,模型的輸入就成了一批隱張量,它們表示單一影片或堆疊的分立影像(圖 2)。而這裡的隱表徵是實值的且無量化的。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
學習生成圖像和影片

#Patchify(圖塊化)。依照原始 ViT 的設計,團隊將每個隱含影格分別進行圖塊化,做法是將其轉換成不重疊圖塊的序列。他們也使用了可學習的位置嵌入,即空間和時間位置嵌入的和。位置嵌入會被加入到圖塊的線性投影。注意,對於影像而言,只需簡單地添加對應第一隱含影格的時間位置嵌入。

視窗注意力。完全由全域自註意力模組組成的 Transformer 模型的計算和記憶體成本很高,尤其是對於視訊任務。為了效率以及聯合處理圖像和視頻,該團隊是以窗口方式計算自註意力,這基於兩種類型的非重疊配置:空間(S)和時空(ST),參見圖 2。

空間視窗(SW)注意力關注的是一個隱含影格內的所有 token。 SW 建模的是影像和影片中的空間關係。時空窗口(STW)注意力的範圍是一個 3D 窗口,建模的是視訊隱含影格之間的時間關係。最後,除了絕對位置嵌入,他們還使用了相對位置嵌入。

據介紹,這個設計雖然簡單,但卻有很高的運算效率,並且能在影像和影片資料集上聯合訓練。不同於基於幀級自動編碼器的方法,新方法不會產生閃動的偽影,而這是分開編碼和解碼視訊幀方法的常見問題。
          
#條件式生成

為了實現可控的視訊生成,除了以時間步驟t 為條件,擴散模型也傾向於使用額外的條件資訊c,例如類別標籤、自然語言、過去幀或低解析度視訊。在新提出的 Transformer 骨幹網路中,團隊整合了三種類型的條件機制,如下所述:

交叉注意力。除了在視窗 Transformer 區塊中使用自註意力層,他們還為文字條件式生成添加了交叉注意力層。當只用影片訓練模型時,交叉注意力層使用相同視窗限制的注意力作為自註意力層,這意味著 S/ST 將具有 SW/STW 交叉注意力層(圖 2)。然而,對於聯合訓練,則只使用 SW 交叉注意力層。對於交叉注意力,該團隊的做法是將輸入訊號(查詢)和條件訊號 (key, value) 連接起來。

AdaLN-LoRA。在許多生成式和視覺合成模型中,自適應歸一化層都是重要組件。為了整合自適應歸一化層,簡單方法是為每一層 i 包含一個 MLP 層,以對條件參數的向量進行迴歸處理。這些附加 MLP 層的參數數量會隨層的數量而線性增長,並會隨模型維度的變化二次增長。受 LoRA 啟發,研究者提出了一種減少模型參數的簡單方案:AdaLN-LoRA。

以自我為條件(Self-conditioning)。除了以外部輸入為條件,迭代式產生演算法還能以自己在推理期間產生的樣本為條件。具體來說,Chen et al. 在論文《Analog bits: Generating discrete data using diffusion models with self-conditioning》中修改了擴散模型的訓練過程,使得模型有一定機率p_sc 產生一個樣本,然後再基於這個初始樣本,使用另一次前向通過來優化這個估計。另一定機率 1-p_sc 僅完成一次前向通過。團隊沿著通道維度將模型估計與輸入連接到一起,然後發現這種簡單技術與 v-prediction 結合起來效果很好。

自回歸生成

#為了透過自回歸預測生成長視頻,該團隊在幀預測任務上也對模型進行了聯合訓練。其實現方式是在訓練過程中讓模型有一定機率 p_fp 以過去幀為條件。條件要麼是 1 個隱含影格(影像到影片產生),要麼是 2 個隱含影格(影片預測)。這種條件是透過沿著有雜訊隱含輸入的通道維度整合進模型中。推理過程中使用的是標準的無分類器引導,並以 c_fp 作為條件訊號。

影片超解析度

#使用單一模型產生高解析度影片的計算成本非常高,基本上難以實現。而研究者則參考論文《Cascaded diffusion models for high fidelity image generation》使用一種級聯式方法將三個模型級聯起來,它們操作的分辨率越來越高。

其中基礎模型以 128×128 的分辨率生成視頻,然後再經過兩個超分辨率階段被上採樣兩次。首先使用一種深度到空間卷積運算在空間上對低解析度輸入(視訊或影像)進行上取樣。請注意,不同於訓練(提供了基本真值低解析度輸入),推理依賴的是先前階段產生的隱含表徵。

為了減少這種差異並能在超解析度階段更穩健地處理在低解析度階段產生的偽影,團隊也使用了雜訊條件式增強。

縱橫比微調。為了簡化訓練和利用具有不同縱橫比的更多資料來源,他們在基礎階段使用的是方形縱橫比。然後他們又在一個資料子集上對模型進行了微調,透過位置嵌入插值來產生縱橫比為 9:16 的影片。
    
實驗

#研究者在多種任務上評估了新提出的方法:以類別為條件的圖像和視訊生成、幀預測、基於文字的視訊生成。他們也透過消融研究探索了不同設計選擇的效果。

視覺生成

#影片產生:在UCF-101 和Kinetics-600 兩個資料集上,W.A.L.T 在FVD 指標上優於先前的所有方法,請參閱表1。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
影像生成:表 2 比較了 W.A.L.T 與其它目前最佳方法產生 256×256 解析度影像的結果。新提出的模型的表現優於先前的方法,並且不需要專門的調度、卷積歸納偏差、改進的擴散損失和無分類器指導。雖然 VDM 的 FID 分數略高一些,但它的模型參數卻多很多(2B)。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
消融研究

#為了理解不同設計決策的貢獻,團隊也進行了消融研究。表 3 給出了在圖塊大小、視窗注意力、自我條件、AdaLN-LoRA 和自動編碼器方面的消融研究結果。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
文字到視頻生成

#該團隊在文字- 圖像和文字- 視頻對上聯合訓練了W.A.L.T 的文本到視頻生成能力。他們使用了一個來自公共互聯網和內部資源的資料集,其中包含約 970M 對文字 - 圖像和約 89M 對文字 - 影片。

基礎模型(3B)的解析度為17×128×128,兩個級聯的超解析度模型則分別為17×128×224 → 17× 256×448 (L, 1.3B, p = 2) 和17× 256×448→ 17×512×896 (L, 419M, p = 2)。他們也在基礎階段對縱橫比進行了微調,以便以 128×224 的分辨率生成影片。所有的文本到視頻生成結果都使用了無分類器引導方法。

以下是一些產生的影片範例,更多請造訪專案網站:

文字:A squirrel eating a burger.

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

文字:A cat riding a ghost rider bike through the desert.

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

定量評估

以科學方式評估以文字為主的影片產生仍是一大難題,部分原因是缺乏標準化的訓練資料集和基準。到目前為止,研究者的實驗和分析都集中在標準的學術基準,它們使用了相同的訓練數據,以確保比較是公平的對照。

儘管如此,為了與先前的文字到視訊生成研究比較,該團隊還是報告了在零樣本評估設定下在 UCF-101 資料集上的結果。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
可以看到,W.A.L.T 的優勢很明顯。

更多細節請參考原文。

以上是將Transformer用於擴散模型,AI 生成影片達到照片級真實感的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

FATE 2.0发布:实现异构联邦学习系统互联FATE 2.0发布:实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了Oct 07, 2023 pm 06:17 PM

自己动手做过莫比乌斯带吗?莫比乌斯带是一种奇特的数学结构。要构造一个这样美丽的单面曲面其实非常简单,即使是小孩子也可以轻松完成。你只需要取一张纸带,扭曲一次,然后将两端粘在一起。然而,这样容易制作的莫比乌斯带却有着复杂的性质,长期吸引着数学家们的兴趣。最近,研究人员一直被一个看似简单的问题困扰着,那就是关于制作莫比乌斯带所需纸带的最短长度?布朗大学RichardEvanSchwartz谈到,对于莫比乌斯带来说,这个问题没有解决,因为它们是「嵌入的」而不是「浸入的」,这意味着它们不会相互渗透或自我

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境