首頁 >科技週邊 >人工智慧 >Google、MIT提出統一框架MAGE：表徵學習超MAE，無監督影像生成超越 Latent Diffusion

Google、MIT提出統一框架MAGE：表徵學習超MAE，無監督影像生成超越 Latent Diffusion

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載: 2023-04-14 20:28:011277瀏覽

識別和生成是人工智慧領域中的兩大核心任務，如果能將二者合併到一個統一的系統中，這兩個任務應該能實現互補。事實上，在自然語言處理中，像 BERT [1] 這樣的模型不僅能夠產生高品質的文本，還能夠提取文本中的特徵。

然而，在電腦視覺領域，目前的圖像生成模型和識別模型大多是分開進行訓練，沒有充分利用這兩個任務的協同作用。這主要是由於圖像生成和圖像識別的模型通常具有本質上的結構差異：圖像生成的輸入是低維度的特徵或噪聲，而輸出是高維度的原始圖像；與之相反，圖像識別的輸入是高維度的原始影像，而輸出是低維度的特徵。

最近，來自MIT 和Google Research 的研究人員提出了一種基於圖像語義符遮罩的表徵學習方法，首次在一個統一的框架中實現了圖像生成和表徵學習，並在多個數據集上取得了SOTA 表現。研究論文已被 CVPR 2023 接收，相關程式碼與預訓練模型已開源。

Google、MIT提出統一框架MAGE：表徵學習超MAE，無監督影像生成超越 Latent Diffusion

#論文網址：https://arxiv.org/abs/2211.09117
程式碼位址：https://github.com/LTH14/mage

在CVPR 2022上，MAE [2] 提出了一種基於影像遮罩（MIM）的表徵學習方法，並在多個子任務上取得了非常好的效果。在高達 75% 的遮罩率下，MAE 可以重構出與原圖語意十分貼合的影像，並藉此讓網路能夠自監督地學習影像中的特徵。然而，如圖 1 所示， MAE 重建的影像雖然具有與原始影像相似的語義訊息，但會出現嚴重的模糊與失真問題。類似的問題也出現在所有基於 MIM 的表徵學習方法中。同時，目前的生成模型，不管是擴散模型還是 GAN，都缺乏提取高品質影像特徵的能力。

Google、MIT提出統一框架MAGE：表徵學習超MAE，無監督影像生成超越 Latent Diffusion

#圖1：MAE 與MAGE 重構對比

方法概述

針對上述問題，本文作者提出了MAGE（Masked Generative Encoder），首次實現了統一的圖像生成和特徵提取模型。與MIM直接作用於影像的遮罩方法不同，MAGE 提出了基於影像語意符的 masked image token modeling 方法。如圖所示，MAGE 首先使用 VQGAN [3] 編碼器將原始影像轉換為離散的語意符。之後，MAGE 對其進行隨機掩碼，並使用基於 transformer 的 encoder-decoder 結構對掩碼進行重構，重構後的語義符可以透過 VQGAN 解碼器產生原始圖像。透過在訓練中使用不同的遮罩率，MAGE 可以同時進行生成模型（接近 100% 遮罩率）和表徵學習（50%-80% 遮罩率）的訓練。如圖 1 所示，MAGE 重建的圖像不僅具有與原始圖像一致的語義訊息，還能夠同時保證生成圖像的多樣性與真實性。

Google、MIT提出統一框架MAGE：表徵學習超MAE，無監督影像生成超越 Latent Diffusion