首頁  >  文章  >  科技週邊  >  Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

WBOY
WBOY轉載
2023-05-15 19:04:041003瀏覽

現在,已是2022年底。

深度學習模型在生成影像上的表現,已經如此出色。很顯然,它在未來會給我們更多的驚喜。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

十年來,我們是如何走到今天這一步的?

在下面的時間軸裡,我們會追溯一些里程碑式的時刻,也就是那些影響了AI圖像合成的論文、架構、模型、資料集、實驗登場的時候。

一切,都要從十年前的夏天說起。

開端(2012-2015)

深度神經網路問世之後,人們意識到:它將徹底改變影像分類。

同時,研究人員開始探索相反的方向,如果使用一些對分類非常有效的技術(例如卷積層)來製作圖像,會發生什麼?

這就是「人工智慧之夏」誕生的伊始。

2012 年 12 月

一切發端於此。

這一年,論文《深度卷積神經網路的ImageNet分類》橫空出世。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

論文作者之一,就是「AI三巨頭」之一的Hinton。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

它首次將深度卷積神經網路 (CNN)、GPU和龐大的網路來源資料集(ImageNet)結合在一起。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

2014 年12 月

Ian Goodfellow等AI巨佬發表了史詩性論文鉅作《生成式對抗網絡》。

GAN是第一個致力於影像合成而非分析的現代神經網路架構(「現代」的定義即2012年後)。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

它引入了一種基於賽局理論的獨特學習方法,由兩個子網路「生成器」和「鑑別器」進行競爭。

最終,只有「生成器」被保留在系統之外,並用於影像合成。

Hello World!來自Goodfellow等人2014年論文的GAN生成人臉樣本。該模型是在Toronto Faces資料集上訓練的,該資料集已從網路上刪除

#2015 年11 月

#具有重大意義的論文《使用深度卷積生成對抗網路進行無監督代表學習》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

在這篇論文中,作者描述了第一個實際可用的GAN 架構 (DCGAN)。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

這篇論文也首次提出了潛在空間操弄的問題──概念是否映射到潛在空間方向?

GAN的五年(2015-2020)

#這五年間,GAN被應用於各種影像處理任務,例如風格轉換、修復、去噪和超解析度。

期間,GAN架構的論文開始爆炸式井噴。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

#專案網址:https://github.com/nightrome/really-awesome-gan

同時,GAN的藝術實驗開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現。

第一個「AI 藝術」醜聞發生在2018年。三位法國學生使用「借來」的程式碼產生一副AI肖像,這副肖像成為第一幅在佳士得被拍賣的AI畫像。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

同時,transformer架構徹底改變了NLP。

在不久的將來,這件事會對影像合成產生重大影響。

2017 年 6 月

《Attention Is All You Need》論文發布。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》裡,也有詳實的解釋。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

自此,Transformer架構(以BERT等預訓練模型的形式)徹底改變了自然語言處理 (NLP) 領域。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

2018 年7 月

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

《概念性標註:用於自動圖像字幕的清理、上位化、圖像替代文字資料集》論文發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

這個和其他多模態資料集對於 CLIP 和 DALL-E 等模型將變得極為重要。

2018-20年

#NVIDIA的研究人員對GAN 架構進行了一系列徹底改進。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

在《使用有限資料訓練生成對抗網路》這篇論文中,介紹了最新的StyleGAN2-ada。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

GAN 產生的影像第一次變得與自然影像無法區分,至少對於像Flickr-Faces-HQ (FFHQ)這樣高度最佳化的資料集來說是這樣。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是該地區AI藝術的典型代表,其中生成模型的非寫實性是藝術探索的重點

2020 年5 月

##論文《語言模型是小樣本學習者》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了變壓器架構的強大功能。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

2020 年12 月

論文《用於高解析度影像合成的Taming transformers》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

ViT表明,Transformer架構可用於映像。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

本文介紹的方法VQGAN在基準測試中產生了SOTA結果。

2010年代後期的GAN架構的品質主要根據對齊的臉部影像進行評估,對於更多異質資料集的效果很有限。

因此,在學術/工業和藝術實驗中,人臉仍然是一個重要的參考點。

Transformer的時代(2020-2022)

#Transformer架構的出現,徹底改寫了影像合成的歷史。

從此,影​​像合成領域開始拋下GAN。

「多模態」深度學習整合了NLP和電腦視覺的技術,「即時工程」取代了模型訓練和調整,成為影像合成的藝術方法。

《從自然語言監督中學習可遷移視覺模型》這篇論文中,提出了CLIP 架構。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

可以說,目前的影像合成熱潮,是由CLIP首次引入的多模態功能所推動的。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

論文中的CLIP架構

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

########################### 2021 年1 月#####################

論文《零樣本文字到圖像生成》發表(另請參閱OpenAI 的部落格文章),其中介紹了即將轟動全世界的DALL-E的第一個版本。

這個版本透過將文字和圖像(由VAE壓縮為「TOKEN」)組合在單一資料流中來運作。

該模型只是「continues」the“sentence”。

資料(250M 圖片)包括來自維基百科的文字圖像對、概念說明和YFCM100M的篩選子集。

CLIP為影像合成的「多模態」方法奠定了基礎。

2021 年1 月

論文《從自然語言監督學習可遷移視覺模型》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

論文中介紹了CLIP,結合了ViT和普通Transformer的多模態模型。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

CLIP會學習圖像和標題的「共享潛在空間」,因此可以標記圖像。

模型在論文附錄A.1中列出的大量資料集上進行訓練。

2021 年6 月

#論文《擴散模型的發佈在影像合成方面擊敗了GAN》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

擴散模型引入了一種不同於GAN方法的影像合成方法。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

研究者透過從人工添加的雜訊重建影像來學習。

它們與變分自動編碼器 (VAE) 相關。

2021 年 7 月

DALL-E mini發布。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

它是DALL-E的複製品(體積更小,對架構和資料的調整很少)。

資料包括Conceptual 12M、Conceptual Captions以及 OpenAI 用於原始 DALL-E 模型的YFCM100M相同過濾子集。

因為沒有任何內容過濾器或API 限制,DALL-E mini為創意探索提供了巨大的潛力,並導致推特上「怪異的DALL-E」圖像爆炸式增長。

2021-2022

Katherine Crowson發布了一系列CoLab筆記,探索製作CLIP 引導生成模型的方法。

例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,僅在2022年作為預印本發布但VQGAN一發布就出現了公共實驗)。

就像在早期的GAN時代一樣,藝術家和開發者以非常有限的手段對現有架構進行重大改進,然後由公司簡化,最後由wombo.ai等「新創公司」商業化。

2022 年4 月

#論文《具有CLIP 潛能的分層文字條件圖像生成》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

該論文介紹了DALL-E 2。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字


#它建立在僅幾週前發布的GLIDE論文(《 GLIDE :使用文字引導擴散模型實現逼真圖像生成和編輯》的基礎上。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

同時,由於DALL-E 2 的訪問受限和有意限制,人們對DALL-E mini重新產生了興趣。

根據模型卡,數據包括“公開可用資源和我們許可的資源的組合”,以及根據論文的完整CLIP和DALL-E資料集。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

#「金髮女郎的人像照片,用數位單眼相機拍攝,中性背景,高解析度」,使用DALL-E 2 生成。基於Transformer 的生成模型與後來的GAN 架構(如StyleGAN 2)的真實感相匹配,但允許創建廣泛的各種主題和圖案

2022 年5-6 月

#5月,論文《具有深度語言理解的真實感文本到圖像擴散模型”發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

#6月,論文《用於內容豐富的文本到圖像生成的縮放自回歸模型》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

這兩篇論文中,介紹了Imagegen和Parti。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字


以及Google對DALL-E 2的回答。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

# #「你知道我今天為什麼阻止你嗎?」由DALL-E 2生成,「prompt engineering」從此成為藝術圖像合成的主要方法

AI Photoshop(2022年至今)

雖然DALL-E 2為圖像模型設定了新標準,但它迅速商業化,也意味著在使用上從一開始就受到限制。

#用戶仍繼續嘗試DALL-E mini等較小的模型。

緊接著,隨著石破天驚的Stable Diffusion的發布,所有這一切都發生了變化。

可以說,Stable Diffusion標誌著影像合成「Photoshop時代」的開始。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

「有四串葡萄的靜物,試圖創造出像古代畫家Zeuxis Juan El Labrador Fernandez,1636 年,馬德里普拉多的葡萄一樣栩栩如生的葡萄」,Stable Diffusion產生的六種變化

2022 年8 月

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

Stability.ai發表Stable Diffusion模型。

在論文《具有潛在擴散模型的高解析度影像合成》中,Stability.ai隆重推出了Stable Diffusion。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

這個模型可以實現與DALL-E 2同等的照片級真實感。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

除了DALL-E 2,模型幾乎立即向公眾開放,並且可以在CoLab和Huggingface平台上運行。

2022 年8 月

#Google發表論文《DreamBooth:為主題驅動生成微調文字到影像擴散模型》。 Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

###DreamBooth提供了對擴散模型越來越細粒度的控制。 #####################然而,即使沒有此類額外的技術幹預,使用像Photoshop 這樣的生成模型也變得可行,從草圖開始,逐層新增生成的修改。 ##################2022 年10 月###########################最大的圖庫公司之一Shutterstock宣布與OpenAI 合作提供/許可生成圖像,可以預計,圖庫市場將受到Stable Diffusion等生成模型的嚴重影響。 ######

以上是Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除