進入預訓練時代後,視覺辨識模型的表現得以快速發展,但影像生成類別的模型,例如生成對抗網路GAN似乎掉隊了。
通常GAN的訓練都是以無監督的方式從頭開始訓練,費時費力不說,大型預訓練透過大數據學習到的「知識」都沒有利用上,豈不是很虧?
而且影像生成本身就需要能夠捕捉和模擬真實世界視覺現像中的複雜統計數據,不然生成出來的圖片不符合物理世界規律,直接一眼鑑定為「假」。
預訓練模型提供知識、GAN模型提供生成能力,二者強強聯合,多是一件美事!
問題來了,哪些預訓練模型、以及如何結合才能改善GAN模型的生成能力?
最近來自CMU和Adobe的研究人員在CVPR 2022發表了一篇文章,透過「選拔」的方式將預訓練模型與GAN模型的訓練結合。
論文連結:https://arxiv.org/abs/2112.09130
計畫連結:https://github.com/nupurkmr9/vision- aided-gan
影片連結:https://www.youtube.com/watch?v=oHdyJNdQ9E4
GAN模型的訓練過程由一個判別器和一個生成器組成,其中判別器用來學習區分真實樣本和生成樣本的相關統計數據,而生成器的目標則是讓生成的圖像與真實分佈盡可能相同。
理想情況下,判別器應能夠測量生成影像和真實影像之間的分佈差距。
但在資料量十分有限的情況下,直接上大規模預訓練模型作為判別器,非常容易導致生成器被「無情碾壓」,然後就「過度擬合」了。
透過在FFHQ 1k資料集上的實驗來看,即使採用最新的可微分資料增強方法,判別器仍然會過度擬合,訓練集表現很強,但在驗證集上表現得很差。
此外,判別器可能會關注那些人類無法辨別但對機器來說很明顯的偽裝。
為了平衡判別器和生成器的能力,研究者提出將一組不同的預訓練模型的表徵集合起來作為判別器。
這個方法有兩個優點:
1、在預訓練的特徵上訓練一個淺層分類器是讓深度網路適應小規模資料集的常見方法,同時可以減少過度擬合。
也就是說只要把預訓練模型的參數固定住,再在頂層加入輕量級的分類網路就可以提供穩定的訓練過程。
例如上面實驗中的Ours曲線,可以看到驗證集的準確率相比StyleGAN2-ADA要提升不少。
2、最近也有一些研究證明了,深度網路可以捕捉有意義的視覺概念,從低階的視覺線索(邊緣和紋理)到高層次的概念(物體和物體部分)都能捕獲。
建立在這些特徵上的判別器可能更符合人類的感知能力。
並且將多個預訓練模型組合在一起後,可以促進生成器在不同的、互補的特徵空間中匹配真實的分佈。
為了選擇效果最好的預訓練網絡,研究人員首先蒐集了多個sota模型組成一個「模型銀行」,包括用於分類的VGG-16,用於檢測和分割的Swin-T等。
接著是基於特徵空間中真實和虛假影像的線性分割,提出一個自動的模型搜尋策略,並使用標籤平滑和可微分的增強技術來進一步穩定模型訓練,減少過擬合。
具體來說,就是將真實訓練樣本和產生的圖像的並集分成訓練集和驗證集。
對於每個預訓練的模型,訓練一個邏輯線性判別器來分類樣本是來自真實樣本還是生成的,並在驗證分割上使用“負二元交叉熵損失”測量分佈差距,並傳回誤差最小的模型。
一個較低的驗證誤差與更高的線性探測精度相關,表明這些特徵對於區分真實樣本和生成的樣本是有用的,使用這些特徵可以為生成器提供更有用的回饋。
研究人員我們用FFHQ和LSUN CAT資料集的1000個訓練樣本對GAN訓練進行了經驗驗證。
結果顯示,用預訓練模型訓練的GAN具有較高的線性偵測精度,一般來說,可以達到更好的FID指標。
為了納入多個現成模型的回饋,文中也探討了兩種模型選擇與整合策略
1)K-fixed模型選擇策略,在訓練開始時選擇K個最好的現成模型並訓練直到收斂;
2)K-progressive模型選擇策略,在固定的迭代次數後迭代選擇並添加性能最佳且未使用的模型。
實驗結果可以發現,與K-fixed策略相比,progressive的方式具有更低的計算複雜度,也有助於選擇預先訓練的模型,從而捕捉到資料分佈的不同。例如,透過progressive策略選擇的前兩個模型通常是一對自監督和監督模型。
文章中的實驗主要以progressive為主。
最終的訓練演算法首先訓練一個具有標準對抗性損失的GAN。
給定一個基準產生器,可以使用線性探測搜尋到最好的預訓練模型,並在訓練中引入損失目標函數。
在K-progressive策略中,在訓練了與可用的真實訓練樣本數量成比例的固定迭代次數後,把一個新的視覺輔助判別器被添加到前一階段具有最佳訓練集FID的快照中。
在訓練過程中,透過水平翻轉進行資料增強,並使用可微分的增強技術和單側標籤平滑作為正規化項。
也可以觀察到,只使用現成的模型作為判別器會導致散度(divergence),而原始判別器和預訓練模型的組合則可以改善這種情況。
最終實驗展示了在FFHQ、LSUN CAT和LSUN CHURCH資料集的訓練樣本從1k到10k變化時的結果。
在所有設定中,FID都能獲得顯著提升,證明了此方法在有限資料場景中的有效性。
為了定性分析該方法和StyleGAN2-ADA之間的差異,根據兩個方法產生的樣本質量來看,文中提出的新方法能夠提高最差樣本的質量,特別是對於FFHQ和LSUN CAT
當我們逐步增加下一個判別器時,可以看到線性偵測對預訓練模型的特徵的準確性逐漸下降,也就是說生成器更強了。
總的來說,在只有1萬個訓練樣本的情況下,該方法在LSUN CAT上的FID與在160萬張圖像上訓練的StyleGAN2效能差不多。
而在完整的資料集上,該方法在LSUN的貓、教堂和馬的類別上提高了1.5到2倍的FID。
#作者Richard Zhang在加州大學柏克萊分校獲得了博士學位,在康乃爾大學獲得了學士和碩士學位。主要研究興趣包括電腦視覺、機器學習、深度學習、圖形和圖像處理,經常透過實習或大學與學術研究人員合作。
作者Jun-Yan Zhu是卡內基美隆大學電腦科學學院的機器人學院的助理教授,同時在電腦科學系和機器學習部門任職,主要研究領域包括電腦視覺、電腦圖形、機器學習和計算攝影。
在加入CMU之前,他曾是Adobe Research的研究科學家。本科畢業於清華大學,博士畢業於加州大學柏克萊分校,然後在MIT CSAIL做博士後。
##
以上是CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本的詳細內容。更多資訊請關注PHP中文網其他相關文章!