首頁 >科技週邊 >人工智慧 >何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

PHPz
PHPz轉載
2024-01-29 14:15:051168瀏覽

去雜訊擴散模型(DDM)是目前廣泛應用於影像產生的一種方法。最近,Xinlei Chen、Zhuang Liu、謝賽寧和何愷明四人團隊對DDM進行了解構研究。透過逐步剝離其組件,他們發現DDM的生成能力逐漸下降,但表徵學習能力仍保持一定水準。這說明DDM中的某些組件對於表徵學習的作用可能並不重要。

針對目前電腦視覺等領域的生成模型,去噪被認為是一種核心方法。這類方法通常稱為去噪擴散模型(DDM),透過學習一個去噪自動編碼器(DAE),能夠透過擴散過程有效地消除多個層級的雜訊。

這些方法實現了出色的影像生成質量,尤其適合生成高解析度、類似照片的仿真實影像。這些生成模型的表現非常優秀,幾乎可以被認為具有強大的辨識能力,能夠理解所產生的視覺內容。

儘管 DAE 是目前生成模型的核心,但最早的論文《Extracting and composing robust features with denoising autoencoders》卻是為了透過監督式方法來學習資料的表徵。這篇論文提出了一種能夠提取和組合穩健特徵的方法。它的目標是透過去噪自編碼器來學習輸入資料的有用表示,從而提高監督學習任務的表現。這種方法的成功應用證明了 DAE 在生成模型中的重要性。

在目前的表徵學習社群中,基於"掩碼雜訊"的變體被認為是DAE最成功的,例如預測語言中缺少的文字(如BERT)或影像中缺少的圖塊。

儘管基於遮罩的變體明確指定了未知和已知的內容,它們與去除加性雜訊的任務有著明顯的區別。在分離加性噪音的任務中,沒有明確的資訊可用於指導處理過程。然而,目前用於生成任務的 DDM 主要基於加性噪聲,這意味著在學習表徵時可能沒有明確地標記出未知和已知的內容。因此,這種差異可能導致基於遮罩的變體在處理加性雜訊時表現出不同的效果。

近來,對於DDM(Deep Denoising Model)的表徵學習能力的研究日益增多。這些研究直接採用已經預先訓練好的DDM模型(原本用於生成任務),並評估它們在辨識任務中的表徵品質。這些以生成為導向的模型的運用帶來了令人振奮的結果。

然而,這些開創性研究也暴露出了一些未解決的問題:這些現有的模型旨在用於生成任務,而不是識別任務,因此我們無法確定它們的表徵能力是通過去噪驅動還是擴散驅動過程獲得的。

Xinlei Chen 等人的研究則在這一研究方向上邁出了一大步。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

  • 論文標題:Deconstructing Denoising Diffusion Models for Self-Supervised Learning

  • 論文地址:https: //arxiv.org/pdf/2401.14404.pdf

他們沒有使用現有的面向生成的DDM,而是訓練了以識別為導向的模型。這項研究的核心理念是解構 DDM,一步一步地修改它,直到將其變成經典的 DAE。

透過這個解構研究過程,他們仔細探討了現代 DDM 在學習表徵目標上的每個面向。這個研究過程為 AI 社群帶來了全新的理解 —— 要學習一個好表徵,DAE 需要哪些關鍵元件。

令人驚訝的是,他們發現其中的主要關鍵元件是 token 化器,其功能是創建低維隱空間。有趣的是,這項觀察結果很大程度上與特定的 token 化器無關 —— 他們探索了標準的 VAE、圖塊級 VAE、圖塊級 AE、圖塊級 PCA 編碼器。他們發現,讓 DAE 得到好表徵的是低維隱空間,並不是具體的 token 化器。

得益於 PCA 的有效性,該團隊一路解構下來,最終得到了一個與經典 DAE 高度相似的簡單架構(見圖 1)。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

他們使用圖塊級 PCA 將影像投影到一個隱空間,添加噪聲,再透過逆 PCA 投影回來。然後訓練一個自動編碼器來預測去雜訊後的影像。

他們將這個架構稱為 latent Denoising Autoencoder(l-DAE),也就是隱去噪自動編碼器。

團隊的解構過程也揭示了 DDM 和經典 DAE 之間的許多其它有趣的特性。

舉個例子,他們發現,即使使用單一的噪音等級(即不使用 DDM 的噪音調度),也能透過 l-DAE 取得不錯的結果。使用多層雜訊的作用就像是某種形式的資料增強,這可能是有益的,但並非一個促成因素。

基於這些觀察,團隊認為 DDM 的表徵能力主要是透過去噪驅動的過程獲得的,而不是擴散驅動的過程。

最後,團隊也將自己所取得的結果與先前的基準進行了比較。一方面,新的結果比之前已有的方法更好:這符合預期,因為那些模型本來就是解構過程的起點。另一方面,新架構的結果比不上基準的對比學習方法和基於遮罩的方法,但差距減少了一些。這也說明 DAE 和 DDM 研究方向上還有進一步的研究空間。 

背景:去雜訊擴散模型

這項解構研究的起點是去雜訊擴散模型(DDM)。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

至於DDM,可參考論文《Diffusion models beat GANs on image synthesis》和《Scalable Diffusion Models with Transformers》以及本站的相關報道《統治擴散模型的U-Net 要被取代了,謝賽寧等引入Transformer 提出DiT》。

解構去噪擴散模型

我們這裡關注的重點是其解構過程 —— 這個過程分為三個階段。首先是將 DiT 中以生成為中心的設定改成更面向自監督學習的設定。接下來,逐步解構並簡化 token 化器。最後,他們嘗試逆向盡可能多的 DDM 驅動的設計,讓模型靠近經典 DAE 。

讓DDM 重新轉向自監督學習

儘管從概念上講,DDM 是DAE 的一種形式,但它其實一開始是為圖像生成任務開發出來的。 DDM 中的許多設計都是以生成任務為導向的。某些設計本身並不適合自監督學習(例如涉及類別標籤);有些設計則在不考慮視覺品質時並不是必需的。

這一節,團隊將把 DDM 的目的調整為自監督學習。表 1 展示了此階段的進展過程。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

移除類別條件化處理

第一步是移除基準模型中的類別條件處理流程。

出乎意料的是,移除類別條件化處理會顯著提升線性探測準確度(linear probe accuracy,從57.5% 到62.1%),然而生成質量卻如預期那樣會大幅下降(FID 從11.6到34.2)。

該團隊猜想:直接在類別標籤上對模型進行條件化處理可能會降低模型對編碼類別標籤相關資訊的需求。而移除類別條件化處理則會迫使模型學習更多語意

解構VQGAN

DiT 從LDM 繼承而來的VQGAN token 化器的訓練過程使用了多個損失項:自動編碼重建損失、KL 散度正則化損失、基於為ImageNet 分類訓練的監督式VGG 網路的感知損失、使用判別器的對抗損失。該團隊對後兩項損失進行了消融研究,見表 1。

當然,移除這兩項損失都會影響生成質量,但在線性探測準確度指標上,移除感知損失會讓其從62.5% 降至58.4%,而移除對抗損失則會讓其上升,從58.4% 到59.0%。而移除對抗損失之後,token 化器本質上就是一個 VAE 了。

取代雜訊調度

該團隊研究了一個更簡單的雜訊調度方案以支援自監督學習。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

具體來說,就是讓訊號的縮放因子 γ^2_t 在 1>γ^2_t≥0 的範圍內線性衰減。這讓模型可把更多能力投放到更清晰的影像上。這會讓線性探測準確度從 59.0% 顯著升至 63.4%。

解構 token 化器

接下來透過大量簡化來解構 VAE token 化器。他們比較了四種作為token 化器的自動編碼器變體,每一種都是前一種的簡化版本:

  • 卷積VAE:這是上一步解構的結果;常見情況是這種VAE 的編碼器和解碼器是深度卷積神經網路。

  • 圖塊級 VAE:讓輸入變成圖塊。

  • 圖塊級 AE:移除了 VAE 的正規化項,使得 VAE 基本上變成 AE,其編碼器和解碼器都是線性投影。

  • 圖塊級 PCA:即在圖塊空間上執行主成分分析(PCA),這是一種更簡單的變體。很容易證明 PCA 等價於 AE 的特例。

由於使用圖塊很簡單,因此該團隊對三個圖塊級 token 化器在圖塊空間的過濾器進行了可視化,見圖 4。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

表 2 總結了使用這四種 token 化器變體時 DiT 的線性探測準確度。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

他們觀察到了以下結果:

  • 要讓DDM 很好地執行自監督學習,token 化器的隱含維度至關重要。

  • 對自監督學習而言,高解析度的、基於像素的DDM 效果很差(見圖5.    

變成經典的去噪自動編碼器

解構的下一步目標是使模型盡可能地接近經典DAE。也就是要移除讓當前的基於PCA 的DDM 和經典DAE 不同的各個面向。結果見表3。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

預測清晰的資料(而非噪聲)

現代DDM 通常是預測噪聲,而經典DAE 則是預測清晰數據。該團隊的做法是透過調整損失函數來為更清晰的數據的損失項賦予更多權重。

如此修改會讓線性探測準確度從65.1% 降至62.4%。這表示預測目標的選擇會影響表徵的品質。

移除輸入縮放

在現代DDM 中,輸入有一個縮放因子γ_t。但經典DAE 中卻不常這樣操作。

透過設定γ_t ≡ 1,團隊發現得到了63.6% 的準確度(見表3),相較於γ_t 可變的模型(62.4%)還好一些。這說明在當前場景中,對輸入進行縮放是完全沒必要的。

使用逆PCA 對圖像空間進行操作

到目前為止,對於前面探索過的所有條目(圖5 除外),模型都運作在由token 化器產生的隱含空間上(圖2 (b))。理想情況下,我們希望DAE 能直接操作影像空間,同時還能位置優良的準確度。團隊發現,既然使用了PCA,那麼就可以使用逆PCA 來實現這一目標。參見圖1。

透過在輸入端進行這樣的修改(依然在隱含空間上預測輸出),可得到63.6% 的準確度(表3)。而如果進一步將其應用於輸出端(即使用逆PCA 在影像空間上預測輸出),可得到63.9% 的準確度。兩個結果都表明,使用逆PCA 在影像空間上進行操作所得的結果近似於在隱含空間上的結果。

預測原始影像

雖然逆PCA 可以在影像空間中得到預測目標,但該目標不是原始影像。這是因為對於任何經過降維的維度d 而言,PCA 都是有損編碼器。相較之下,更自然的解決方案是直接預測原始影像。

當讓網路預測原始影像時,引入的「雜訊」包括兩部分:加性高斯雜訊(其內在維度為d)和PCA 重建誤差(其內在維度為D − d(D 為768))。團隊的做法是對這兩個部分分開進行加權。

透過該團隊的設計,可讓預測原始影像實現64.5% 的線性探測準確度。

這個變體在概念上非常簡單:其輸入是一張有雜訊影像,其中雜訊是添加到 PCA 隱含空間中,它的預測結果是原始的乾淨影像(圖 1)。

單一噪音等級

最後,在好奇心的驅使下,團隊也研究了具有單一噪音等級的變體。他們指出,透過雜訊調度實現的多層雜訊是 DDM 的擴散過程的一個屬性。而經典 DAE 在概念上並不必需要多級噪音。

他們將噪音等級 σ 固定成了一個常數 √(1/3)。使用這個單級噪聲,模型的準確度為相當不錯的 61.5%,相比於多級噪聲的 64.5% 僅降低了三個百分點。

使用多層雜訊類似於 DAE 中一種形式的資料增強:它是有益的,但不是促成因素。這也意味著 DDM 的表徵能力主要來自於去噪驅動的過程,而不是來自擴散驅動的過程。

總結

總而言之,團隊對現代 DDM 進行了解構,讓其變成了經典 DAE。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

他們去除了許多現代設計,並且在概念上只保留了兩個承襲自現代 DDM 的設計:低維隱含空間(這是添加噪聲的位置)和多級噪聲。

他們使用表 3 最後一項作為最後的 DAE 實例(如圖 1 所示)。他們將這種方法稱為 latent Denoising Autoencoder(隱去噪自動編碼器),簡稱為 l-DAE。

分析與比較

可視化隱含雜訊

#從概念上講,l-DAE 是DAE 的一種形式,可學習移除添加到隱含空間的雜訊。由於 PCA 很簡單,於是可以輕鬆地對逆 PCA 的隱含雜訊進行視覺化。

圖 7 比較了添加到像素和添加到隱含空間的雜訊。不同於像素噪聲,隱含噪聲很大程度上與影像的分辨率無關。如果使用圖塊級 PCA 作為 token 化器,隱含雜訊的模式主要由圖塊大小決定。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

去雜訊結果

圖 8 展示了基於 l-DAE 的更多去噪結果範例。可以看到,新方法能得到比較好的預測結果,即便噪音濃厚。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

資料增強

需要指出,這裡給出的所有模型都沒有使用資料增強:僅使用了影像中心區域裁剪,沒有隨機的大小調整或顏色抖動。團隊做了進一步的研究,測試了為最終的 l-DAE 使用溫和的數據增強:

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

結果略有改善。這顯示 l-DAE 的表徵學習能力很大程度上與資料增強無關。在 MAE 中也觀察到了類似的行為,參閱何愷明等人的論文《Masked autoencoders are scalable vision learners》,這與對比學習方法大不相同。

訓練 epoch

之前的所有實驗都基於 400 epoch 的訓練。按照MAE 的設計,團隊也研究了800 和1600 epoch 的訓練:

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

相比之下,當epoch 數從400 升至800 時,MAE 有顯著增益(4%);但MoCo v3 在epoch 數從300 升至600 時卻幾乎沒有增益(0.2%)。

模型大小

之前的所有模型都是基於 DiT-L 變體,其編碼器和解碼器都是 ViT-1/2L(ViT-L 的一半深度)。團隊進一步訓練了不同大小的模型,其編碼器是ViT-B 或ViT-L(解碼器的大小總是與編碼器一樣):

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

可以看到:當模型大小從ViT-B 變大成ViT-L 時,能獲得10.6% 的巨大增益。

比較先前的基準模型

最後,為了更好地理解不同類型的自監督學習方法的效果,團隊進行了一番比較,結果見表 4。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器

有趣的是,相較於MAE,l-DAE 的表現還不錯,只有1.4% (ViT-B) 或0.8% (ViT-L)的下降。另一方面,團隊也指出 MAE 的訓練效率更高,因為它只處理無遮罩圖塊。儘管如此,MAE 和 DAE 驅動的方法之間的準確度差距已經在很大程度上縮小了。

最後,他們也觀察到,相較於該協定下的對比學習方法,基於自動編碼器的方法(MAE 和 l-DAE)仍然存在不足,特別是當模型很小時。他們最後表示:「我們希望我們的研究能吸引人們更加關注以基於自動編碼器的方法實現自監督學習的研究。」

以上是何愷明和謝賽寧團隊成功跟隨解構擴散模型探索,最終創造出備受讚譽的去噪自編碼器的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除