搜尋
首頁科技週邊人工智慧CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

進入預訓練時代後,視覺辨識模型的表現得以快速發展,但影像生成類別的模型,例如生成對抗網路GAN似乎掉隊了。

通常GAN的訓練都是以無監督的方式從頭開始訓練,費時費力不說,大型預訓練透過大數據學習到的「知識」都沒有利用上,豈不是很虧?

而且影像生成本身就需要能夠捕捉和模擬真實世界視覺現像中的複雜統計數據,不然生成出來的圖片不符合物理世界規律,直接一眼鑑定為「假」。

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

 預訓練模型提供知識、GAN模型提供生成能力,二者強強聯合,多是一件美事!

問題來了,哪些預訓練模型、以及如何結合才能改善GAN模型的生成能力?

最近來自CMU和Adobe的研究人員在CVPR 2022發表了一篇文章,透過「選拔」的方式將預訓練模型與GAN模型的訓練結合。

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

論文連結:https://arxiv.org/abs/2112.09130

計畫連結:https://github.com/nupurkmr9/vision- aided-gan

影片連結:https://www.youtube.com/watch?v=oHdyJNdQ9E4

GAN模型的訓練過程由一個判別器和一個生成器組成,其中判別器用來學習區分真實樣本和生成樣本的相關統計數據,而生成器的目標則是讓生成的圖像與真實分佈盡可能相同。

理想情況下,判別器應能夠測量生成影像和真實影像之間的分佈差距。

但在資料量十分有限的情況下,直接上大規模預訓練模型作為判別器,非常容易導致生成器被「無情碾壓」,然後就「過度擬合」了。

透過在FFHQ 1k資料集上的實驗來看,即使採用最新的可微分資料增強方法,判別器仍然會過度擬合,訓練集表現很強,但在驗證集上表現得很差。

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

此外,判別器可能會關注那些人類無法辨別但對機器來說很明顯的偽裝。 

為了平衡判別器和生成器的能力,研究者提出將一組不同的預訓練模型的表徵集合起來作為判別器。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

這個方法有兩個優點:

1、在預訓練的特徵上訓練一個淺層分類器是讓深度網路適應小規模資料集的常見方法,同時可以減少過度擬合。

也就是說只要把預訓練模型的參數固定住,再在頂層加入輕量級的分類網路就可以提供穩定的訓練過程。

例如上面實驗中的Ours曲線,可以看到驗證集的準確率相比StyleGAN2-ADA要提升不少。

2、最近也有一些研究證明了,深度網路可以捕捉有意義的視覺概念,從低階的視覺線索(邊緣和紋理)到高層次的概念(物體和物體部分)都能捕獲。

建立在這些特徵上的判別器可能更符合人類的感知能力。

並且將多個預訓練模型組合在一起後,可以促進生成器在不同的、互補的特徵空間中匹配真實的分佈。

為了選擇效果最好的預訓練網絡,研究人員首先蒐集了多個sota模型組成一個「模型銀行」,包括用於分類的VGG-16,用於檢測和分割的Swin-T等。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

 接著是基於特徵空間中真實和虛假影像的線性分割,提出一個自動的模型搜尋策略,並使用標籤平滑和可微分的增強技術來進一步穩定模型訓練,減少過擬合。

具體來說,就是將真實訓練樣本和產生的圖像的並集分成訓練集和驗證集。

對於每個預訓練的模型,訓練一個邏輯線性判別器來分類樣本是來自真實樣本還是生成的,並在驗證分割上使用“負二元交叉熵損失”測量分佈差距,並傳回誤差最小的模型。

一個較低的驗證誤差與更高的線性探測精度相關,表明這些特徵對於區分真實樣本和生成的樣本是有用的,使用這些特徵可以為生成器提供更有用的回饋。

研究人員我們用FFHQ和LSUN CAT資料集的1000個訓練樣本對GAN訓練進行了經驗驗證。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本結果顯示,用預訓練模型訓練的GAN具有較高的線性偵測精度,一般來說,可以達到更好的FID指標。

為了納入多個現成模型的回饋,文中也探討了兩種模型選擇與整合策略

1)K-fixed模型選擇策略,在訓練開始時選擇K個最好的現成模型並訓練直到收斂;

2)K-progressive模型選擇策略,在固定的迭代次數後迭代選擇並添加性能最佳且未使用的模型。

實驗結果可以發現,與K-fixed策略相比,progressive的方式具有更低的計算複雜度,也有助於選擇預先訓練的模型,從而捕捉到資料分佈的不同。例如,透過progressive策略選擇的前兩個模型通常是一對自監督和監督模型。

文章中的實驗主要以progressive為主。

最終的訓練演算法首先訓練一個具有標準對抗性損失的GAN。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本給定一個基準產生器,可以使用線性探測搜尋到最好的預訓練模型,並在訓練中引入損失目標函數。

在K-progressive策略中,在訓練了與可用的真實訓練樣本數量成比例的固定迭代次數後,把一個新的視覺輔助判別器被添加到前一階段具有最佳訓練集FID的快照中。

在訓練過程中,透過水平翻轉進行資料增強,並使用可微分的增強技術和單側標籤平滑作為正規化項。

也可以觀察到,只使用現成的模型作為判別器會導致散度(divergence),而原始判別器和預訓練模型的組合則可以改善這種情況。

最終實驗展示了在FFHQ、LSUN CAT和LSUN CHURCH資料集的訓練樣本從1k到10k變化時的結果。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本在所有設定中,FID都能獲得顯著提升,證明了此方法在有限資料場景中的有效性。

為了定性分析該方法和StyleGAN2-ADA之間的差異,根據兩個方法產生的樣本質量來看,文中提出的新方法能夠提高最差樣本的質量,特別是對於FFHQ和LSUN CAT

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本當我們逐步增加下一個判別器時,可以看到線性偵測對預訓練模型的特徵的準確性逐漸下降,也就是說生成器更強了。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本總的來說,在只有1萬個訓練樣本的情況下,該方法在LSUN CAT上的FID與在160萬張圖像上訓練的StyleGAN2效能差不多。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本而在完整的資料集上,該方法在LSUN的貓、教堂和馬的類別上提高了1.5到2倍的FID。

#

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

作者Richard Zhang在加州大學柏克萊分校獲得了博士學位,在康乃爾大學獲得了學士和碩士學位。主要研究興趣包括電腦視覺、機器學習、深度學習、圖形和圖像處理,經常透過實習或大學與學術研究人員合作。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本作者Jun-Yan Zhu是卡內基美隆大學電腦科學學院的機器人學院的助理教授,同時在電腦科學系和機器學習部門任職,主要研究領域包括電腦視覺、電腦圖形、機器學習和計算攝影。

在加入CMU之前,他曾是Adobe Research的研究科學家。本科畢業於清華大學,博士畢業於加州大學柏克萊分校,然後在MIT CSAIL做博士後。

 CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本

##

以上是CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具