搜尋
首頁科技週邊人工智慧CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

進入預訓練時代後,視覺辨識模型的表現得以快速發展,但影像生成類別的模型,例如生成對抗網路GAN似乎掉隊了。

通常GAN的訓練都是以無監督的方式從頭開始訓練,費時費力不說,大型預訓練透過大數據學習到的「知識」都沒有利用上,豈不是很虧?

而且影像生成本身就需要能夠捕捉和模擬真實世界視覺現像中的複雜統計數據,不然生成出來的圖片不符合物理世界規律,直接一眼鑑定為「假」。

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

 預訓練模型提供知識、GAN模型提供生成能力,二者強強聯合,多是一件美事!

問題來了,哪些預訓練模型、以及如何結合才能改善GAN模型的生成能力?

最近來自CMU和Adobe的研究人員在CVPR 2022發表了一篇文章,透過「選拔」的方式將預訓練模型與GAN模型的訓練結合。

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

論文連結:https://arxiv.org/abs/2112.09130

計畫連結:https://github.com/nupurkmr9/vision- aided-gan

影片連結:https://www.youtube.com/watch?v=oHdyJNdQ9E4

GAN模型的訓練過程由一個判別器和一個生成器組成,其中判別器用來學習區分真實樣本和生成樣本的相關統計數據,而生成器的目標則是讓生成的圖像與真實分佈盡可能相同。

理想情況下,判別器應能夠測量生成影像和真實影像之間的分佈差距。

但在資料量十分有限的情況下,直接上大規模預訓練模型作為判別器,非常容易導致生成器被「無情碾壓」,然後就「過度擬合」了。

透過在FFHQ 1k資料集上的實驗來看,即使採用最新的可微分資料增強方法,判別器仍然會過度擬合,訓練集表現很強,但在驗證集上表現得很差。

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

此外,判別器可能會關注那些人類無法辨別但對機器來說很明顯的偽裝。 

為了平衡判別器和生成器的能力,研究者提出將一組不同的預訓練模型的表徵集合起來作為判別器。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

這個方法有兩個優點:

1、在預訓練的特徵上訓練一個淺層分類器是讓深度網路適應小規模資料集的常見方法,同時可以減少過度擬合。

也就是說只要把預訓練模型的參數固定住,再在頂層加入輕量級的分類網路就可以提供穩定的訓練過程。

例如上面實驗中的Ours曲線,可以看到驗證集的準確率相比StyleGAN2-ADA要提升不少。

2、最近也有一些研究證明了,深度網路可以捕捉有意義的視覺概念,從低階的視覺線索(邊緣和紋理)到高層次的概念(物體和物體部分)都能捕獲。

建立在這些特徵上的判別器可能更符合人類的感知能力。

並且將多個預訓練模型組合在一起後,可以促進生成器在不同的、互補的特徵空間中匹配真實的分佈。

為了選擇效果最好的預訓練網絡,研究人員首先蒐集了多個sota模型組成一個「模型銀行」,包括用於分類的VGG-16,用於檢測和分割的Swin-T等。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

 接著是基於特徵空間中真實和虛假影像的線性分割,提出一個自動的模型搜尋策略,並使用標籤平滑和可微分的增強技術來進一步穩定模型訓練,減少過擬合。

具體來說,就是將真實訓練樣本和產生的圖像的並集分成訓練集和驗證集。

對於每個預訓練的模型,訓練一個邏輯線性判別器來分類樣本是來自真實樣本還是生成的,並在驗證分割上使用“負二元交叉熵損失”測量分佈差距,並傳回誤差最小的模型。

一個較低的驗證誤差與更高的線性探測精度相關,表明這些特徵對於區分真實樣本和生成的樣本是有用的,使用這些特徵可以為生成器提供更有用的回饋。

研究人員我們用FFHQ和LSUN CAT資料集的1000個訓練樣本對GAN訓練進行了經驗驗證。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本結果顯示,用預訓練模型訓練的GAN具有較高的線性偵測精度,一般來說,可以達到更好的FID指標。

為了納入多個現成模型的回饋,文中也探討了兩種模型選擇與整合策略

1)K-fixed模型選擇策略,在訓練開始時選擇K個最好的現成模型並訓練直到收斂;

2)K-progressive模型選擇策略,在固定的迭代次數後迭代選擇並添加性能最佳且未使用的模型。

實驗結果可以發現,與K-fixed策略相比,progressive的方式具有更低的計算複雜度,也有助於選擇預先訓練的模型,從而捕捉到資料分佈的不同。例如,透過progressive策略選擇的前兩個模型通常是一對自監督和監督模型。

文章中的實驗主要以progressive為主。

最終的訓練演算法首先訓練一個具有標準對抗性損失的GAN。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本給定一個基準產生器,可以使用線性探測搜尋到最好的預訓練模型,並在訓練中引入損失目標函數。

在K-progressive策略中,在訓練了與可用的真實訓練樣本數量成比例的固定迭代次數後,把一個新的視覺輔助判別器被添加到前一階段具有最佳訓練集FID的快照中。

在訓練過程中,透過水平翻轉進行資料增強,並使用可微分的增強技術和單側標籤平滑作為正規化項。

也可以觀察到,只使用現成的模型作為判別器會導致散度(divergence),而原始判別器和預訓練模型的組合則可以改善這種情況。

最終實驗展示了在FFHQ、LSUN CAT和LSUN CHURCH資料集的訓練樣本從1k到10k變化時的結果。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本在所有設定中,FID都能獲得顯著提升,證明了此方法在有限資料場景中的有效性。

為了定性分析該方法和StyleGAN2-ADA之間的差異,根據兩個方法產生的樣本質量來看,文中提出的新方法能夠提高最差樣本的質量,特別是對於FFHQ和LSUN CAT

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本當我們逐步增加下一個判別器時,可以看到線性偵測對預訓練模型的特徵的準確性逐漸下降,也就是說生成器更強了。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本總的來說,在只有1萬個訓練樣本的情況下,該方法在LSUN CAT上的FID與在160萬張圖像上訓練的StyleGAN2效能差不多。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本而在完整的資料集上,該方法在LSUN的貓、教堂和馬的類別上提高了1.5到2倍的FID。

#

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

作者Richard Zhang在加州大學柏克萊分校獲得了博士學位,在康乃爾大學獲得了學士和碩士學位。主要研究興趣包括電腦視覺、機器學習、深度學習、圖形和圖像處理,經常透過實習或大學與學術研究人員合作。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本作者Jun-Yan Zhu是卡內基美隆大學電腦科學學院的機器人學院的助理教授,同時在電腦科學系和機器學習部門任職,主要研究領域包括電腦視覺、電腦圖形、機器學習和計算攝影。

在加入CMU之前,他曾是Adobe Research的研究科學家。本科畢業於清華大學,博士畢業於加州大學柏克萊分校,然後在MIT CSAIL做博士後。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

##

以上是CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具