搜尋
首頁科技週邊人工智慧在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

大型语言模型(LLM 或 LM)最初用于生成语言,但随着时间的推移,它们已经能够生成多种模态的内容,并在音频、语音、代码生成、医疗应用、机器人学等领域开始占据主导地位

当然,LM 也能生成图像和视频。在此过程中,图像像素会被视觉 tokenizer 映射为一系列离散的 token。然后,这些 token 被送入 LM transformer,就像词汇一样被用于生成建模。尽管 LM 在视觉生成方面取得了显著进步,但 LM 的表现仍然不如扩散模型。例如,在图像生成的金标基准 —ImageNet 数据集上进行评估时,最佳语言模型的表现比扩散模型差了 48% 之多(以 256ˆ256 分辨率生成图像时,FID 为 3.41 对 1.79)。

为什么语言模型在视觉生成方面落后于扩散模型?来自谷歌、CMU 的研究者认为,主要原因是缺乏一个良好的视觉表示,类似于我们的自然语言系统,以有效地建模视觉世界。为了证实这一假设,他们进行了一项研究。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

论文链接:https://arxiv.org/pdf/2310.05737.pdf

这项研究表明,在相同的训练数据、可比模型大小和训练预算条件下,利用良好的视觉 tokenizer,掩码语言模型在图像和视频基准的生成保真度和效率方面都超过了 SOTA 扩散模型。这是语言模型在标志性的 ImageNet 基准上击败扩散模型的首个证据。

需要强调的是,研究者的目的不是断言语言模型是否优于其他模型,而是促进 LLM 视觉 tokenization 方法的探索。LLM 与其他模型(如扩散模型)的根本区别在于,LLM 使用离散的潜在格式,即从可视化 tokenizer 获得的 token。这项研究表明,这些离散的视觉 token 的价值不应该被忽视,因为它们存在以下优势: 

1、与 LLM 的兼容性。token 表示的主要优点是它与语言 token 共享相同的形式,从而可以直接利用社区多年来为开发 LLM 所做的优化,包括更快的训练和推理速度、模型基础设施的进步、扩展模型的方法以及 GPU/TPU 优化等创新。通过相同的 token 空间统一视觉和语言可以为真正的多模态 LLM 奠定基础,后者可以在我们的视觉环境中理解、生成和推理。

2、压缩表示。离散 token 可以为视频压缩提供一个新的视角。可视化 token 可以作为一种新的视频压缩格式,以减少数据在互联网传输过程中占用的磁盘存储和带宽。与压缩的 RGB 像素不同,这些 token 可以直接输入生成模型,绕过传统的解压缩和潜在编码步骤。这可以加快生成视频应用的处理速度,在边缘计算情况下尤其有益。

3、视觉理解优势。以前的研究表明,在自监督表示学习中,将离散的标记作为预训练目标是有价值的,就像BEiT和BEVT中所讨论的那样。此外,研究发现,将标记用作模型输入可以提高其鲁棒性和泛化性能

在这篇论文中,研究者提出了一个名为MAGVIT-v2的视频分词器,旨在将视频(和图像)转化为紧凑的离散标记

该内容的重写如下:该模型是基于VQ-VAE框架内的SOTA视频tokenizer——MAGVIT进行的改进。研究人员提出了两种新技术:1)一种创新的无查找(lookup-free)量化方法,使得可以学习大量词汇,从而提高语言模型的生成质量;2)通过广泛的实证分析,他们确定了对MAGVIT的修改方案,不仅提升了生成质量,还允许使用共享词汇表对图像和视频进行token化

实验结果显示,新模型在三个关键领域优于之前表现最好的视频分词器——MAGVIT。首先,新模型显著提高了MAGVIT的生成质量,在常见的图像和视频基准上刷新了最佳结果。其次,用户研究表明,它的压缩质量超过了MAGVIT和当前的视频压缩标准HEVC。此外,它与下一代视频编解码器VVC相当。最后,研究者表明,与MAGVIT相比,他们的新的分词在两个设置和三个数据集的视频理解任务中表现更强

方法介紹

本文引入了新的視訊tokenizer,旨在將視覺場景中的時間- 空間動態映射為適合語言模型的緊湊離散token 。此外,該方法建立在 MAGVIT 的基礎上。

隨後,研究重點介紹了兩種新穎的設計:無尋找量化(Lookup-Free Quantization ,LFQ)和 tokenizer 模型的增強功能。

無查找量化

#近期,VQ-VAE模型取得了巨大的進展,但是該方法存在一個問題,即重建品質的改進與後續生成品質之間的關係不明確。許多人錯誤地認為改進重建就等同於改進語言模型的生成,例如,擴大詞彙量可以提高重建品質。然而,這種改進只適用於詞彙量較小的生成,而當詞彙量非常大時,會損害語言模型的表現

本文將VQ-VAE codebook 嵌入維度縮減到0 ,即Codebook 在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵被替換為整數集在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵,其中在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

與 VQ-VAE 模型不同的是,這種新設計完全消除了對嵌入查找的需要,因此稱為 LFQ。本文發現 LFQ 可以透過增加詞彙量,提升語言模型的生成品質。如圖 1 中的藍色曲線所示,隨著詞彙量的增加,重建和生成不斷改進 —— 這是目前 VQ-VAE 方法中未觀察到的特性。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

到目前為止,可用的 LFQ 方法很多,但本文討論了一種簡單的變體。具體來說,LFQ 的潛在空間被分解為單維變數的笛卡爾積,即 在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵。假定給定一個特徵向量在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵,量化表示  q (z) 的每個維度從以下得到:

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

關於LFQ,q( z)的令牌索引為:

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

除此之外,本文在訓練過程中也增加了熵懲罰:

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

##視覺tokenizer 模型的改進

#為了建立聯合圖像-視訊分詞器,需要重新設計。研究發現,與空間變換器相比,3D CNN的性能更優

本文探討了兩種可行的設計方案,如圖2b 將C-ViViT 與MAGVIT 結合;圖2c 使用時間因果3D 卷積來取代常規3D CNN。 

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

表 5a 對圖 2 的設計進行了經驗比較,發現因果 3D CNN 表現最好。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

#

本文在提升MAGVIT效能方面進行了其他架構的修改。除了使用因果3D CNN層外,本文還將編碼器下採樣器從平均池化改為跨步卷積,並在解碼器中每個分辨率的殘差塊之前添加了一個自適應組歸一化層等

實驗結果

本文透過三個部分的實驗驗證了所提出的分詞器的性能:視訊和圖像生成、視訊壓縮和動作識別。圖3直觀地比較了分詞器與先前研究結果的對比

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

影片生成。表 1 顯示了本文模型在兩個基準測試中都超越了所有現有技術,證明了良好的視覺 tokenizer 在使 LM 生成高品質影片方面發揮著重要作用。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

以下是對圖4 的定性樣本的描述

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

透過對MAGVIT-v2的影像產生結果進行評估,本研究在標準的ImageNet類別條件設定下發現,我們的模型在取樣品質(ID和IS)以及推理時間效率(取樣步驟)方面都超過了最佳擴散模型的表現

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

圖5 為視覺化結果。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

影片壓縮。結果如表 3 所示,本文模型在所有指標上都優於 MAGVIT,且在 LPIPS 上優於所有方法。

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

根據表4所示,MAGVIT-v2在這些評估中表現優於先前最好的MAGVIT

在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

以上是在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器