讓 OpenAI 創建的圖像生成系統 DALL·E 2 繪製一幅「金魚在海灘上啜飲可口可樂」的圖畫,它會吐出超現實的圖像。該程式在訓練期間會遇到海灘、金魚和可口可樂的圖像,但它不太可能看到三者同時出現的圖像。然而,DALL·E 2 可以將這些概念組合成可能讓達利感到自豪的東西。
DALL·E 2 是一種生成模型——一種嘗試使用訓練資料來產生在品質和多樣性方面可與資料相媲美的新事物的系統。這是機器學習中最困難的問題之一,到達這一點是一段艱難的旅程。
第一個重要的圖像生成模型使用了一種稱為神經網路的人工智慧方法——一種由多層計算單元組成的程序,稱為人工神經元。但即使他們的圖像品質變得更好,模型也被證明不可靠且難以訓練。同時,一個強大的生成模型——由一位對物理學充滿熱情的博士後研究員創建——處於休眠狀態,直到兩名研究生取得技術突破,使這隻野獸復活。
DALL·E 2 就是這樣一頭野獸。使 DALL·E 2 的圖像以及其競爭對手 Stable Diffusion 和 Imagen 的圖像成為可能的關鍵洞察力來自物理學世界。支撐它們的系統被稱為擴散模型,在很大程度上受到非平衡熱力學的啟發,非平衡熱力學支配著流體和氣體擴散等現象。 「有很多技術最初是由物理學家發明的,現在在機器學習中非常重要,」OpenAI 的機器學習研究員 Yang Song 說。
這些模型的力量震撼了產業和使用者。 「對於生成模型來說,這是一個激動人心的時刻,」加州理工學院電腦科學家、英偉達機器學習研究高級主管 Anima Anandkumar 說。
她說,雖然擴散模型創建的逼真圖像有時會延續社會和文化偏見,但「我們已經證明,生成模型對下游任務很有用,[這些]提高了預測人工智慧模型的公平性。」
為了理解如何為圖像創建數據,讓我們從僅由兩個相鄰灰階像素組成的簡單影像開始。我們可以根據每個像素的陰影(從 0 為全黑到 255 為全白)用兩個值來完整描述此影像。您可以使用這兩個值將影像繪製為二維空間中的一個點。
如果我們將多個影像繪製為點,則可能會出現聚類-某些影像及其對應的像素值比其他影像更頻繁地出現。現在想像平面上方有一個曲面,曲面的高度對應於簇的密度。該曲面繪製出機率分佈。你最有可能在曲面最高部分下方找到單一數據點,在表面的最低部分下方很少找到數據點。
DALL·E 2 製作了這些「金魚在海灘上啜飲可口可樂」的圖像。這個由 OpenAI 創建的程式可能從未遇到過類似的圖像,但仍然可以自行生成它們。
現在你可以使用此機率分佈來產生新圖片。你需要做的就是隨機產生新的資料點,同時遵守更頻繁地產生更多可能資料的限制——這個過程稱為「取樣」分佈。每個新點都是一個新圖像。
同樣的分析適用於更逼真的灰階照片,例如每張一百萬像素。只是現在,繪製每個圖像需要的不是兩個軸,而是一百萬個。此類影像的機率分佈將是一些複雜的百萬加一維曲面。如果你對該分佈進行取樣,你將產生一百萬個像素值。將這些像素印在一張紙上,圖像很可能看起來像是原始資料集中的照片。
產生建模的挑戰是為構成訓練資料的某些影像集學習這種複雜的機率分佈。該分佈之所以有用,部分原因是它捕獲了有關數據的廣泛信息,部分原因是研究人員可以結合不同類型數據(例如文本和圖像)的概率分佈來構成超現實的輸出,例如金魚在海灘上啜飲可口可樂。 「你可以混合和匹配不同的概念……以創建訓練資料中從未見過的全新場景,」Anandkumar 說。
2014 年,一種稱為生成對抗網路 (GAN) 的模型成為第一個生成逼真圖像的模型。 “太激動了,”Anandkumar 說。但是 GAN 很難訓練:它們可能無法學習完整的機率分佈,並且可能只能從分佈的子集生成圖像。例如,在各種動物圖像上訓練的 GAN 可能只會產生狗的圖片。
機器學習需要一個更強大的模型。 Jascha Sohl-Dickstein 的工作受到物理學的啟發,他將提供一個答案。
Jascha Sohl-Dickstein。
在GAN 發明前後,Sohl-Dickstein 是史丹佛大學的博士後,研究生成模型,對非平衡熱力學也有興趣。物理學的這個分支研究不處於熱平衡狀態的系統──那些在內部以及與環境交換物質和能量的系統。
一個說明性的例子是一滴藍色墨水透過一個水容器擴散。起初,它在一個地方形成一個黑色的斑點。此時,如果你想計算在容器的某個小體積中找到墨水分子的機率,你需要一個機率分佈來清晰地模擬墨水開始擴散之前的初始狀態。但這種分佈很複雜,因此很難從中抽樣。
然而,最終,墨水擴散到整個水中,使水變成淡藍色。這可以用簡單的數學表達式描述的更簡單、更均勻的分子機率分佈。非平衡熱力學描述了擴散過程中每一步的機率分佈。至關重要的是,每一步都是可逆的——通過足夠小的步驟,你可以從一個簡單的分佈回到一個複雜的分佈。
Jascha Sohl-Dickstein 基於擴散原理創建了一種新的生成建模方法。 ——Asako Miyakawa
Sohl-Dickstein 使用擴散原理開發了產生建模演算法。這個想法很簡單:演算法首先將訓練資料集中的複雜影像轉化為簡單的雜訊——類似於從一滴墨水變成漫射淡藍色的水——然後教導系統如何反轉這個過程,將雜訊轉化為圖像。
這是它的工作原理。首先,演算法從訓練集中獲取圖像。和以前一樣,假設百萬像素中的每一個都有一些值,我們可以將影像繪製為百萬維空間中的一個點。該演算法在每個時間步向每個像素添加一些噪聲,相當於墨水在一個小時間步後的擴散。隨著這個過程的繼續,像素值與它們在原始影像中的值的關係越來越小,像素看起來更像是一個簡單的雜訊分佈。 (演算法還在每個時間步將每個像素值向原點微移一點點,即所有這些軸上的零值。這種微移可以防止像素值變得太大以至於計算機無法輕鬆處理。)
對資料集中的所有影像執行此操作,百萬維空間中點的初始複雜分佈(無法輕易描述和取樣)變成圍繞原點的簡單、常態分佈的點。
Sohl-Dickstein 說:「轉換序列非常緩慢地將你的資料分佈變成一個大噪音球。」這個「正向過程」為你提供了一個可以輕鬆取樣的分佈。
接下來是機器學習部分:為神經網路提供從正向傳遞中獲得的雜訊影像,並訓練它預測更早一步出現的雜訊較小的影像。一開始它會出錯,所以你調整網路的參數,讓它做得更好。最終,神經網路可以可靠地將代表簡單分佈樣本的雜訊影像一直轉換為代表複雜分佈樣本的影像。
經過訓練的網路是一個成熟的生成模型。現在你甚至不需要原始影像來進行正向傳遞:你有簡單分佈的完整數學描述,所以你可以直接從中取樣。神經網路可以將這個樣本——本質上只是靜態的——變成類似於訓練資料集中影像的最終影像。
Sohl-Dickstein 回憶起他的擴散模型的第一個輸出。 「你會瞇著眼睛說,[我認為那個彩色斑點看起來像一輛卡車,]」他說。 「我花了很多個月的時間盯著不同的像素模式,試圖看到我喜歡的結構,[這比我以前得到的更有條理。] 我非常興奮。」
Sohl-Dickstein 在2015 年發表了他的擴散模型演算法,但仍遠遠落後於GAN 的能力。雖然擴散模型可以對整個分佈進行取樣,並且永遠不會只吐出影像的子集,但影像看起來更糟,而且過程太慢了。 「我認為當時這並不令人興奮,」Sohl-Dickstein 說。
#論文網址:https://doi.org/10.48550/arXiv.1503.03585
#需要兩名既不了解Sohl-Dickstein 也不了解對方的學生,才能將最初工作中的點點滴滴與DALL·E 2 等現代擴散模型聯繫起來。第一個是 Song,當時他是史丹佛大學的博士生。 2019 年,他和他的導師發表了一種建立生成模型的新方法,該方法不估計資料(高維度表面)的機率分佈。相反,它估計了分佈的梯度(將其視為高維表面的斜率)。
Yang Song 幫助提出了一種透過訓練網路有效解讀嘈雜圖像來產生圖像的新技術。
Song 發現,如果他先用增加的雜訊等級擾動訓練資料集中的每張影像,然後讓他的神經網路使用分佈梯度預測原始影像,從而有效地對其進行去噪,他的技術效果最好。一旦經過訓練,他的神經網路就可以從簡單的分佈中抽取雜訊影像,並逐步將其轉換回代表訓練資料集的影像。影像品質很好,但他的機器學習模型取樣速度非常慢。而且他在不了解 Sohl-Dickstein 的工作的情況下做到了這一點。 「我根本不知道擴散模型,」Song 說。 「在我們2019 年的論文發表後,我收到了Jascha 發來的電子郵件。他向我指出,[我們的模型] 有著非常緊密的聯繫。」
#################################################################2020年,第二名學生看到了這些聯繫,並意識到Song 的工作可以改進Sohl-Dickstein 的擴散模型。 Jonathan Ho 最近在加州大學柏克萊分校完成了生成建模的博士研究,但他仍在繼續研究。 「我認為這是機器學習中數學上最美麗的分支學科,」他說。 ############Ho 利用 Song 的一些想法和神經網路領域的其他進展重新設計和更新了 Sohl-Dickstein 的擴散模型。 「我知道為了引起社區的注意,我需要讓模型產生漂亮的樣本,」他說。 「我確信這是我當時能做的最重要的事。」######
他的直覺是正確的。 Ho 和他的同事在 2020 年的一篇題為「去噪擴散機率模型」的論文中宣布了這種新的和改進的擴散模型。它很快就成為一個里程碑,以至於研究人員現在將其簡稱為 DDPM。根據一項影像品質基準——將生成影像的分佈與訓練影像的分佈進行比較—這些模型匹配或超過了所有競爭生成模型,包括 GAN。沒多久,大公司就注意到了這一點。現在,DALL·E 2、Stable Diffusion、Imagen 和其他商業模型都使用了 DDPM 的一些變體。
Jonathan Ho 和他的同事結合了Sohl-Dickstein 和Song 的方法,使現代擴散模型成為可能,例如DALL· E 2。
現代擴散模型還有一個關鍵要素:大型語言模型 (LLM),例如 GPT-3。這些是基於互聯網文字訓練的生成模型,用於學習單字而不是圖像的機率分佈。 2021 年,Ho(現在是一家隱形公司的研究科學家)和他在Google Research 的同事Tim Salimans 以及其他地方的其他團隊展示瞭如何將來自LLM 和圖像生成擴散模型的信息結合起來使用文本(例如, “金魚在海灘上啜飲可口可樂」)來指導擴散過程,從而引導圖像生成。這種「引導擴散」過程是文字到圖像模型成功的背後原因,例如 DALL·E 2。
「它們遠遠超出了我最瘋狂的期望,」Ho 說。 「我不會假裝我看到了這一切。」
儘管這些模型非常成功,DALL·E 2 及其同類產品的圖像仍遠非完美。大型語言模型可以在它們生成的文本中反映文化和社會偏見,例如種族主義和性別歧視。那是因為他們接受了從網路上摘錄的文本的訓練,而這些文本通常包含種族主義和性別歧視的語言。在此類文本上學習機率分佈的 LLM 充滿了相同的偏見。擴散模型也在從互聯網上獲取的未經整理的圖像上進行訓練,這些圖像可能包含類似的有偏見的數據。難怪將法學碩士與當今的傳播模型相結合有時會產生反映社會弊病的圖像。
Anandkumar 有親身經歷。當她嘗試使用基於擴散模型的應用程式生成自己的風格化頭像時,她感到震驚。 「這麼多 [許多] 圖像都被高度性感化了,」她說,「而它呈現給男性的東西卻並非如此。」 她並不孤單。
可以透過整理和過濾資料(考慮到資料集的龐大性,這是一項極其困難的任務)或透過檢查這些模型的輸入提示和輸出來減少這些偏差。 「當然,沒有什麼能取代仔細和廣泛的安全測試」一個模型,Ho 說。 「這對該領域來說是一個重要的挑戰。」
儘管存在這些顧慮,Anandkumar 仍然相信生成建模的力量。 「我真的很喜歡 Richard Feynman 的名言:[我無法創造的東西,我不理解,] 」她說。加深的理解使她的團隊能夠開發生成模型,例如,產生用於預測任務的代表性不足的類別的合成訓練數據,例如用於面部識別的較深膚色,有助於提高公平性。生成模型還可以讓我們深入了解我們的大腦如何處理嘈雜的輸入,或者它們如何喚起心理意象並考慮未來的行動。建構更複雜的模型可以賦予人工智慧類似的能力。
Anandkumar 說:「我認為,我們才剛開始探索生成式人工智慧的可能性。」
#以上是啟發現代人工智慧藝術的物理原理,探索生成式人工智慧的可能性才剛開始的詳細內容。更多資訊請關注PHP中文網其他相關文章!