搜尋
首頁科技週邊人工智慧擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

最近一段時間,AI 作畫可謂是火的一塌糊塗。

在你驚嘆 AI 繪畫能力的同時,可能還不知道的是,擴散模型在其中扮演了重要角色。就拿熱門模型 OpenAI 的 DALL·E 2 來說,只要輸入簡單的文字(prompt),它就可以產生多張 1024*1024 的高清影像。

在DALL·E 2 公佈沒多久,谷歌隨後發布了Imagen,這是一個文本到圖像的AI 模型,它能夠通過給定的文本描述生成該場景下逼真的圖像。

就在前幾天,Stability.Ai 公開發布文字生成圖像模型 Stable Diffusion 的最新版本,其生成的圖像達到商用等級。

自 2020 年Google發布 DDPM 以來,擴散模型就逐漸成為生成領域的新熱點。之後 OpenAI 推出 GLIDE、ADM-G 模型等,都讓擴散模型火出圈。

許多研究者認為,基於擴散模型的文字影像生成模型不但參數量小,生成的影像品質卻更高,大有要取代 GAN 的動能。

不過,擴散模型背後的數學公式讓許多研究者望而卻步,眾多研究者認為,其比 VAE、GAN 要難理解得多。

近日,來自Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》,本文以極其詳細的方式展示了擴散模型背後的數學原理,目的是讓其他研究者可以跟隨並了解擴散模型是什麼以及它們是如何運作的。 擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

論文網址:https://arxiv.org/pdf/2208.11970.pdf至於這篇論文有多「數學」,論文作者是這樣描述的:我們以及其令人痛苦的細節(excruciating detail)展示了這些模型背後的數學。

論文共分為 6 部分,主要包括生成模型;ELBO、VAE 和分級 VAE;變分擴散模型;基於分數的生成模型等。

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

以下摘取了論文部分內容來介紹:

產生模型

給定分佈中的觀察樣本x,生成模型的目標是學習為其真實資料分佈p(x) 進行建模。模型學習完之後,我們就可以產生新的樣本。此外,在某些形式下,我們也可以使用學習模型來進行評估觀察或對資料進行取樣。

當前研究文獻中,有幾個重要方向,本文只在高層次上簡要介紹,主要包括:GAN,其對複雜分佈的採樣過程進行建模,該過程以對抗方式學習。生成模型,我們也可稱之為「基於似然,likelihood-based」的方法,這類模型可以將高似然分配給觀察到的資料樣本,通常包括自回歸、歸一化流、VAE。基於能量的建模,在這種方法中,分佈被學習為任意靈活的能量函數,然後被歸一化。在基於分數的生成模型中,其沒有學習對能量函數本身進行建模,而是將基於能量模型的分數學習為神經網路。

在這項研究中,本文探索和回顧了擴散模型,正如文中所展示的那樣,它們具有基於可能性和基於分數的解釋。

變分擴散模型

以簡單的方式來看,一個變分擴散模型(Variational Diffusion Model, VDM)可以被考慮為具有三個主要限制(或假設)的馬可夫分層變分自編碼器(MHVAE),它們分別為:

#
  • 潛在維度完全等同於資料維度;
  • 每個時間步上潛在編碼器的結構沒有被學到,它被預先定義為線性高斯模型。換言之,它是以先前時間步的輸出為中心的高斯分佈;
  • 潛在編碼器的高斯參數隨時間變化,過程中最終時間步T 的潛在分佈標是準高斯分佈。

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

#變分擴散模型的視覺展示圖

#此外,研究者明確維護了來自標準馬可夫分層變分自編碼器的分層轉換之間的馬可夫屬性。他們對以上三個主要假設的涵義一一做了擴展。

從第一個假設開始,由於符號的濫用,現在可以將真實資料樣本和潛在變數表示為x_t,其中t=0 表示真實樣本數據,t ∈ [1 , T] 表示相應的潛在變量,它的層級結構由t 索引。 VDM 後驗與MHVAE 後驗相同,但現在可以重寫為如下:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

#從第二個假設,已知的是編碼器中每個潛在變數的分佈都是以先前分層潛在變數為中心的高斯分佈。與 MHVAE 不同的是,編碼器在每個時間步上的結構沒有被學到,它被固定為一個線性高斯模型,其中均值和標準差都可以預先設定為超參數或作為參數學得。在數學上,編碼器轉換表示為如下:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

#對第三個假設,α_t 根據固定或可學得的schedule 而隨時間演化,使得最終潛在變數p(x_T) 的分佈為標準高斯分佈。然後可以更新MHVAE 的聯合分佈,將VDM 的聯合分佈寫為如下:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

總的來說,這一系列假設描述了一個影像隨時間演化的穩定雜訊。研究者透過添加高斯雜訊漸進地破壞影像,直到最終變得與高斯雜訊完全相同。

與任何HVAE 相似的是,VDM 可以透過最大化證據下界(Evidence Lower Bound, ELBO)來最佳化,可以推導如下:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

#ELBO 的解釋過程如下圖4 所示:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

三種等價的解釋

正如先前證明的,一個變分擴散模型可以簡單地透過學習神經網路來訓練,以從任意雜訊版本x_t 及其時間索引t 中預測原始自然圖像x_0。但是,x_0 有兩個等價的參數化,使得 VDM 可以展開兩種進一步的解釋。

首先可以利用重參數化技巧。在推導 q(x_t|x_0) 的形式時,文中公式 69 可以重新排列為如下:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了##

將其帶入先前推導出的真實去噪轉換均值µ_q(x_t, x_0),則可以重新推導如下:擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

因此可以將近似去雜訊轉換平均值µ_θ(x_t, t) 設定為如下:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

且對應的最佳化問題變成如下:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

為了推導出變分擴散模型的三種常見解釋,需要求助於Tweedie 公式,它指的是當給定樣本時,指數族分佈的真實平均值可以透過樣本的最大似然估計(也稱為經驗平均值)加上一些涉及估計分數的校正項來估計。

從數學上講,對於一個高斯變數z ∼ N (z; µ_z, Σ_z),Tweedie 公式表示如下:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

基於分數的生成模型

研究者已經表明,變分擴散模型可以簡單地透過優化一個神經網路s_θ(x_t, t) 來學得,以預測一個得分函數∇ log p(x_t)。但是,推導中的得分項來自 Tweedie 公式的應用。這不一定為解讀得分函數究竟是什麼或為什麼它值得建模提供好的直覺或洞見。

好在可以藉助另一類生成模型,也就是基於分數的生成模型,來獲得這種直覺。研究者的確證明了先前推導出的 VDM 公式具有等價的基於分數的生成建模公式,使得可以在這兩種解釋之間靈活切換。

為了理解為什麼最佳化一個得分函數是有意義的,研究者重新審視了基於能量的模型。任意靈活的機率分佈可以寫成如下形式:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

#避免計算或建模歸一化常數的一種方式是使用神經網路s_θ(x) 來學習分佈p(x) 的得分函數∇ log p(x)。這是觀察到了公式152 兩邊可以進行對數求導:

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

它可以自由地表示為神經網絡,不涉及任何歸一化常數。透過利用真值得分函數最小化 Fisher 散度,可以最佳化得分函數。

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

直觀地講,得分函數在資料x 所在的整個空間上定義了一個向量場,並指向模型,具體如下圖6 所示。

擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了

最終,研究者從訓練目標和抽樣過程兩方面,建立了變分擴散模型和基於分數的生成模型之間的明確關聯。

更多細節內容請參閱原文。

以上是擴散模型背後數學太難了,啃不動?谷歌用統一視角講明白了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。