識別和生成是人工智慧領域中的兩大核心任務,如果能將二者合併到一個統一的系統中,這兩個任務應該能實現互補。事實上,在自然語言處理中,像 BERT [1] 這樣的模型不僅能夠產生高品質的文本,還能夠提取文本中的特徵。
然而,在電腦視覺領域,目前的圖像生成模型和識別模型大多是分開進行訓練,沒有充分利用這兩個任務的協同作用。這主要是由於圖像生成和圖像識別的模型通常具有本質上的結構差異:圖像生成的輸入是低維度的特徵或噪聲,而輸出是高維度的原始圖像;與之相反,圖像識別的輸入是高維度的原始影像,而輸出是低維度的特徵。
最近,來自MIT 和Google Research 的研究人員提出了一種基於圖像語義符遮罩的表徵學習方法,首次在一個統一的框架中實現了圖像生成和表徵學習,並在多個數據集上取得了SOTA 表現。研究論文已被 CVPR 2023 接收,相關程式碼與預訓練模型已開源。
在CVPR 2022上,MAE [2] 提出了一種基於影像遮罩(MIM)的表徵學習方法,並在多個子任務上取得了非常好的效果。在高達 75% 的遮罩率下,MAE 可以重構出與原圖語意十分貼合的影像,並藉此讓網路能夠自監督地學習影像中的特徵。然而,如圖 1 所示, MAE 重建的影像雖然具有與原始影像相似的語義訊息,但會出現嚴重的模糊與失真問題。類似的問題也出現在所有基於 MIM 的表徵學習方法中。同時,目前的生成模型,不管是擴散模型還是 GAN,都缺乏提取高品質影像特徵的能力。
#圖1:MAE 與MAGE 重構對比
針對上述問題,本文作者提出了MAGE(Masked Generative Encoder),首次實現了統一的圖像生成和特徵提取模型。與MIM直接作用於影像的遮罩方法不同,MAGE 提出了基於影像語意符的 masked image token modeling 方法。如圖所示,MAGE 首先使用 VQGAN [3] 編碼器將原始影像轉換為離散的語意符。之後,MAGE 對其進行隨機掩碼,並使用基於 transformer 的 encoder-decoder 結構對掩碼進行重構,重構後的語義符可以透過 VQGAN 解碼器產生原始圖像。透過在訓練中使用不同的遮罩率,MAGE 可以同時進行生成模型(接近 100% 遮罩率)和表徵學習(50%-80% 遮罩率)的訓練。如圖 1 所示,MAGE 重建的圖像不僅具有與原始圖像一致的語義訊息,還能夠同時保證生成圖像的多樣性與真實性。
#圖2:MAGE 結構圖
MAGE 在多個影像產生與影像辨識任務上都達到或超過了SOTA。
在ImageNet 的無監督影像產生任務中,MAGE 的FID 從先前的> 20 降至7.04,甚至達到了有監督影像產生的水準(有監督Latent Diffusion 在ImageNet 上的FID 為3.60) :
圖3:MAGE 無監督影像產生範例
MAGE 也能夠進行各類影像編輯工作,包括image inpainting、outpainting、uncropping:
#圖4:MAGE 映像編輯範例
在在表徵學習方面,MAGE 在ImageNet linear probing、少樣本學習、遷移學習等任務中,相較於目前的MIM 方法有了大幅提升,並且可以達到或超過目前最優的自監督學習方法的水平。
結語
####本文旨在將影像產生與表徵學習統一。為此,本文作者提出了 MAGE,一種基於圖像語義符遮罩的自監督學習框架。該框架簡潔、高效,並首次在圖像生成和表徵學習上都達到或超越了 SOTA 的表現。有興趣的讀者可以查看論文原文,以了解更多研究細節。 ######以上是Google、MIT提出統一框架MAGE:表徵學習超MAE,無監督影像生成超越 Latent Diffusion的詳細內容。更多資訊請關注PHP中文網其他相關文章!