首頁  >  文章  >  科技週邊  >  在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

WBOY
WBOY轉載
2023-10-11 15:53:01700瀏覽

大型语言模型(LLM 或 LM)最初用于生成语言,但随着时间的推移,它们已经能够生成多种模态的内容,并在音频、语音、代码生成、医疗应用、机器人学等领域开始占据主导地位

当然,LM 也能生成图像和视频。在此过程中,图像像素会被视觉 tokenizer 映射为一系列离散的 token。然后,这些 token 被送入 LM transformer,就像词汇一样被用于生成建模。尽管 LM 在视觉生成方面取得了显著进步,但 LM 的表现仍然不如扩散模型。例如,在图像生成的金标基准 —ImageNet 数据集上进行评估时,最佳语言模型的表现比扩散模型差了 48% 之多(以 256ˆ256 分辨率生成图像时,FID 为 3.41 对 1.79)。

为什么语言模型在视觉生成方面落后于扩散模型?来自谷歌、CMU 的研究者认为,主要原因是缺乏一个良好的视觉表示,类似于我们的自然语言系统,以有效地建模视觉世界。为了证实这一假设,他们进行了一项研究。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

论文链接:https://arxiv.org/pdf/2310.05737.pdf

这项研究表明,在相同的训练数据、可比模型大小和训练预算条件下,利用良好的视觉 tokenizer,掩码语言模型在图像和视频基准的生成保真度和效率方面都超过了 SOTA 扩散模型。这是语言模型在标志性的 ImageNet 基准上击败扩散模型的首个证据。

需要强调的是,研究者的目的不是断言语言模型是否优于其他模型,而是促进 LLM 视觉 tokenization 方法的探索。LLM 与其他模型(如扩散模型)的根本区别在于,LLM 使用离散的潜在格式,即从可视化 tokenizer 获得的 token。这项研究表明,这些离散的视觉 token 的价值不应该被忽视,因为它们存在以下优势: 

1、与 LLM 的兼容性。token 表示的主要优点是它与语言 token 共享相同的形式,从而可以直接利用社区多年来为开发 LLM 所做的优化,包括更快的训练和推理速度、模型基础设施的进步、扩展模型的方法以及 GPU/TPU 优化等创新。通过相同的 token 空间统一视觉和语言可以为真正的多模态 LLM 奠定基础,后者可以在我们的视觉环境中理解、生成和推理。

2、压缩表示。离散 token 可以为视频压缩提供一个新的视角。可视化 token 可以作为一种新的视频压缩格式,以减少数据在互联网传输过程中占用的磁盘存储和带宽。与压缩的 RGB 像素不同,这些 token 可以直接输入生成模型,绕过传统的解压缩和潜在编码步骤。这可以加快生成视频应用的处理速度,在边缘计算情况下尤其有益。

3、视觉理解优势。以前的研究表明,在自监督表示学习中,将离散的标记作为预训练目标是有价值的,就像BEiT和BEVT中所讨论的那样。此外,研究发现,将标记用作模型输入可以提高其鲁棒性和泛化性能

在这篇论文中,研究者提出了一个名为MAGVIT-v2的视频分词器,旨在将视频(和图像)转化为紧凑的离散标记

该内容的重写如下:该模型是基于VQ-VAE框架内的SOTA视频tokenizer——MAGVIT进行的改进。研究人员提出了两种新技术:1)一种创新的无查找(lookup-free)量化方法,使得可以学习大量词汇,从而提高语言模型的生成质量;2)通过广泛的实证分析,他们确定了对MAGVIT的修改方案,不仅提升了生成质量,还允许使用共享词汇表对图像和视频进行token化

实验结果显示,新模型在三个关键领域优于之前表现最好的视频分词器——MAGVIT。首先,新模型显著提高了MAGVIT的生成质量,在常见的图像和视频基准上刷新了最佳结果。其次,用户研究表明,它的压缩质量超过了MAGVIT和当前的视频压缩标准HEVC。此外,它与下一代视频编解码器VVC相当。最后,研究者表明,与MAGVIT相比,他们的新的分词在两个设置和三个数据集的视频理解任务中表现更强

方法介紹

本文引入了新的視訊tokenizer,旨在將視覺場景中的時間- 空間動態映射為適合語言模型的緊湊離散token 。此外,該方法建立在 MAGVIT 的基礎上。

隨後,研究重點介紹了兩種新穎的設計:無尋找量化(Lookup-Free Quantization ,LFQ)和 tokenizer 模型的增強功能。

無查找量化

#近期,VQ-VAE模型取得了巨大的進展,但是該方法存在一個問題,即重建品質的改進與後續生成品質之間的關係不明確。許多人錯誤地認為改進重建就等同於改進語言模型的生成,例如,擴大詞彙量可以提高重建品質。然而,這種改進只適用於詞彙量較小的生成,而當詞彙量非常大時,會損害語言模型的表現

本文將VQ-VAE codebook 嵌入維度縮減到0 ,即Codebook 在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵被替換為整數集在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵,其中在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

與 VQ-VAE 模型不同的是,這種新設計完全消除了對嵌入查找的需要,因此稱為 LFQ。本文發現 LFQ 可以透過增加詞彙量,提升語言模型的生成品質。如圖 1 中的藍色曲線所示,隨著詞彙量的增加,重建和生成不斷改進 —— 這是目前 VQ-VAE 方法中未觀察到的特性。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

到目前為止,可用的 LFQ 方法很多,但本文討論了一種簡單的變體。具體來說,LFQ 的潛在空間被分解為單維變數的笛卡爾積,即 在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵。假定給定一個特徵向量在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵,量化表示  q (z) 的每個維度從以下得到:

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

關於LFQ,q( z)的令牌索引為:

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

除此之外,本文在訓練過程中也增加了熵懲罰:

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

##視覺tokenizer 模型的改進

#為了建立聯合圖像-視訊分詞器,需要重新設計。研究發現,與空間變換器相比,3D CNN的性能更優

本文探討了兩種可行的設計方案,如圖2b 將C-ViViT 與MAGVIT 結合;圖2c 使用時間因果3D 卷積來取代常規3D CNN。 

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

表 5a 對圖 2 的設計進行了經驗比較,發現因果 3D CNN 表現最好。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

#

本文在提升MAGVIT效能方面進行了其他架構的修改。除了使用因果3D CNN層外,本文還將編碼器下採樣器從平均池化改為跨步卷積,並在解碼器中每個分辨率的殘差塊之前添加了一個自適應組歸一化層等

實驗結果

本文透過三個部分的實驗驗證了所提出的分詞器的性能:視訊和圖像生成、視訊壓縮和動作識別。圖3直觀地比較了分詞器與先前研究結果的對比

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

影片生成。表 1 顯示了本文模型在兩個基準測試中都超越了所有現有技術,證明了良好的視覺 tokenizer 在使 LM 生成高品質影片方面發揮著重要作用。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

以下是對圖4 的定性樣本的描述

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

透過對MAGVIT-v2的影像產生結果進行評估,本研究在標準的ImageNet類別條件設定下發現,我們的模型在取樣品質(ID和IS)以及推理時間效率(取樣步驟)方面都超過了最佳擴散模型的表現

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

圖5 為視覺化結果。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

影片壓縮。結果如表 3 所示,本文模型在所有指標上都優於 MAGVIT,且在 LPIPS 上優於所有方法。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

根據表4所示,MAGVIT-v2在這些評估中表現優於先前最好的MAGVIT

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

以上是在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除