進入預訓練時代後,視覺辨識模型的表現得以快速發展,但影像生成類別的模型,例如生成對抗網路GAN似乎掉隊了。
通常GAN的訓練都是以無監督的方式從頭開始訓練,費時費力不說,大型預訓練透過大數據學習到的「知識」都沒有利用上,豈不是很虧?
而且影像生成本身就需要能夠捕捉和模擬真實世界視覺現像中的複雜統計數據,不然生成出來的圖片不符合物理世界規律,直接一眼鑑定為「假」。
預訓練模型提供知識、GAN模型提供生成能力,二者強強聯合,多是一件美事!
問題來了,哪些預訓練模型、以及如何結合才能改善GAN模型的生成能力?
最近來自CMU和Adobe的研究人員在CVPR 2022發表了一篇文章,透過「選拔」的方式將預訓練模型與GAN模型的訓練結合。
論文連結:https://arxiv.org/abs/2112.09130
計畫連結:https://github.com/nupurkmr9/vision- aided-gan
影片連結:https://www.youtube.com/watch?v=oHdyJNdQ9E4
GAN模型的訓練過程由一個判別器和一個生成器組成,其中判別器用來學習區分真實樣本和生成樣本的相關統計數據,而生成器的目標則是讓生成的圖像與真實分佈盡可能相同。
理想情況下,判別器應能夠測量生成影像和真實影像之間的分佈差距。
但在資料量十分有限的情況下,直接上大規模預訓練模型作為判別器,非常容易導致生成器被「無情碾壓」,然後就「過度擬合」了。
透過在FFHQ 1k資料集上的實驗來看,即使採用最新的可微分資料增強方法,判別器仍然會過度擬合,訓練集表現很強,但在驗證集上表現得很差。
此外,判別器可能會關注那些人類無法辨別但對機器來說很明顯的偽裝。
為了平衡判別器和生成器的能力,研究者提出將一組不同的預訓練模型的表徵集合起來作為判別器。
這個方法有兩個優點:
1、在預訓練的特徵上訓練一個淺層分類器是讓深度網路適應小規模資料集的常見方法,同時可以減少過度擬合。
也就是說只要把預訓練模型的參數固定住,再在頂層加入輕量級的分類網路就可以提供穩定的訓練過程。
例如上面實驗中的Ours曲線,可以看到驗證集的準確率相比StyleGAN2-ADA要提升不少。
2、最近也有一些研究證明了,深度網路可以捕捉有意義的視覺概念,從低階的視覺線索(邊緣和紋理)到高層次的概念(物體和物體部分)都能捕獲。
建立在這些特徵上的判別器可能更符合人類的感知能力。
並且將多個預訓練模型組合在一起後,可以促進生成器在不同的、互補的特徵空間中匹配真實的分佈。
為了選擇效果最好的預訓練網絡,研究人員首先蒐集了多個sota模型組成一個「模型銀行」,包括用於分類的VGG-16,用於檢測和分割的Swin-T等。
接著是基於特徵空間中真實和虛假影像的線性分割,提出一個自動的模型搜尋策略,並使用標籤平滑和可微分的增強技術來進一步穩定模型訓練,減少過擬合。
具體來說,就是將真實訓練樣本和產生的圖像的並集分成訓練集和驗證集。
對於每個預訓練的模型,訓練一個邏輯線性判別器來分類樣本是來自真實樣本還是生成的,並在驗證分割上使用“負二元交叉熵損失”測量分佈差距,並傳回誤差最小的模型。
一個較低的驗證誤差與更高的線性探測精度相關,表明這些特徵對於區分真實樣本和生成的樣本是有用的,使用這些特徵可以為生成器提供更有用的回饋。
研究人員我們用FFHQ和LSUN CAT資料集的1000個訓練樣本對GAN訓練進行了經驗驗證。
結果顯示,用預訓練模型訓練的GAN具有較高的線性偵測精度,一般來說,可以達到更好的FID指標。
為了納入多個現成模型的回饋,文中也探討了兩種模型選擇與整合策略
1)K-fixed模型選擇策略,在訓練開始時選擇K個最好的現成模型並訓練直到收斂;
2)K-progressive模型選擇策略,在固定的迭代次數後迭代選擇並添加性能最佳且未使用的模型。
實驗結果可以發現,與K-fixed策略相比,progressive的方式具有更低的計算複雜度,也有助於選擇預先訓練的模型,從而捕捉到資料分佈的不同。例如,透過progressive策略選擇的前兩個模型通常是一對自監督和監督模型。
文章中的實驗主要以progressive為主。
最終的訓練演算法首先訓練一個具有標準對抗性損失的GAN。
給定一個基準產生器,可以使用線性探測搜尋到最好的預訓練模型,並在訓練中引入損失目標函數。
在K-progressive策略中,在訓練了與可用的真實訓練樣本數量成比例的固定迭代次數後,把一個新的視覺輔助判別器被添加到前一階段具有最佳訓練集FID的快照中。
在訓練過程中,透過水平翻轉進行資料增強,並使用可微分的增強技術和單側標籤平滑作為正規化項。
也可以觀察到,只使用現成的模型作為判別器會導致散度(divergence),而原始判別器和預訓練模型的組合則可以改善這種情況。
最終實驗展示了在FFHQ、LSUN CAT和LSUN CHURCH資料集的訓練樣本從1k到10k變化時的結果。
在所有設定中,FID都能獲得顯著提升,證明了此方法在有限資料場景中的有效性。
為了定性分析該方法和StyleGAN2-ADA之間的差異,根據兩個方法產生的樣本質量來看,文中提出的新方法能夠提高最差樣本的質量,特別是對於FFHQ和LSUN CAT
當我們逐步增加下一個判別器時,可以看到線性偵測對預訓練模型的特徵的準確性逐漸下降,也就是說生成器更強了。
總的來說,在只有1萬個訓練樣本的情況下,該方法在LSUN CAT上的FID與在160萬張圖像上訓練的StyleGAN2效能差不多。
而在完整的資料集上,該方法在LSUN的貓、教堂和馬的類別上提高了1.5到2倍的FID。
作者Richard Zhang在加州大學柏克萊分校獲得了博士學位,在康乃爾大學獲得了學士和碩士學位。主要研究興趣包括電腦視覺、機器學習、深度學習、圖形和圖像處理,經常透過實習或大學與學術研究人員合作。
作者Jun-Yan Zhu是卡內基美隆大學電腦科學學院的機器人學院的助理教授,同時在電腦科學系和機器學習部門任職,主要研究領域包括電腦視覺、電腦圖形、機器學習和計算攝影。
在加入CMU之前,他曾是Adobe Research的研究科學家。本科畢業於清華大學,博士畢業於加州大學柏克萊分校,然後在MIT CSAIL做博士後。
以上是CMU聯手Adobe:GAN模型迎來預訓練時代,只需1%的訓練樣本的詳細內容。更多資訊請關注PHP中文網其他相關文章!

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

禪工作室 13.0.1
強大的PHP整合開發環境

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境