扩散模型在图像生成方面的色彩表现中发挥了作用,推动了生成式模型的新纪元。如Stable Diffusion、DALLE、Imagen、SORA等大模型如雨后春笋般涌现,进一步丰富了生成式AI的应用背景。然而,当前的扩散模型在理论上并非完美,鲜有研究关注到采样样本时段端点处未定义的奇点问题。此外,奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。
为了解决这一难题,微信视觉团队与中山大学合作,联手探究了扩散模型中的奇点问题,并提出了一个即插即用的方法,有效解决了初始时刻的采样问题。该方法成功解决了平均灰度问题,显著提升了现有扩散模型的生成能力。这一研究成果已在CVPR 2024 会议上发表。
扩散模型在多模态内容生成任务中取得了显著的成功,包括图像、音频、文本和视频等生成。这些模型的成功建模大多依赖于一个假设,即扩散过程的逆过程也符合高斯特性。然而,这一假设并没有得到充分证明。特别是在端点处,即 t=0 或 t=1,会出现奇点问题,限制了现有方法对奇点处采样的研究。
此外,奇点问题也会影响扩散模型的生成能力,导致模型出现平均灰度问题,即难以生成亮度强或者弱的图像,如图下所示。这在一定程度上也限制了当前扩散模型的应用范围。
为了解决扩散模型在时间端点处的奇点问题,微信视觉团队与中山大学合作,从理论和实践两个方面展开了深入探究。首先,该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界,为后续研究提供了理论基础。基于这一理论保障,团队对奇点处的采样进行了研究,并得出了两个重要的结论:1)t=1 处的奇点可以通过求取极限转化为可去奇点,2)t=0 处的奇点是扩散模型的固有特性,不需要规避。基于这些结论,该团队提出了一个即插即用的方法:SingDiffusion,用于解决扩散模型在初始时刻采样的问题。
通 过 大 量 的 实 验 验 证 明,仅 需 训 练 一 次,SingDiffusion 模 块 即 可 无 缝 应 用 到 现 有 的 扩 散 模 型 中,显 著 地 解 决 了 平 均 灰 度 值 的 问 题。在 不 使 用 无 分 类 器 指 引 技 术 的 情 况 下,SingDiffusion 能 够 显 著 提 升 当 前 方法 的 生 成 质 量,特 别 是 在 应 用 于 Stable Diffusion 1.5(SD-1.5)后,其 生 成 的 图 像 质 量 更 是 提 升 了 33%。
论文地址:https://arxiv.org/pdf/2403.08381.pdf
项目地址:https://pangzecheung.github.io/SingDiffusion/
论文题目:Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models
逆过程的高斯特性
为了研究扩散模型的奇点问题,需要验证全过程包含奇点处的逆过程满足高斯特性。首先定义为扩散模型的训练样本,训练样本的分布可以表示为:
其中 δ 表示狄拉克函数。根据 [1] 中连续时间扩散模型的定义,对于任意两个时刻 0≤s,t≤1,正向过程可以表示为:
其中,
,
#,
隨著時間單調的從1 變化到0。考慮到剛剛定義的訓練樣本分佈,
的單一時刻邊際機率密度可以表示為:
由此,可以透過貝葉斯公式計算逆過程的條件分佈:
然而,得到的分佈是混合高斯分佈,難以用網路進行擬合。因此,主流的擴散模型通常假設這一分佈可以由單一高斯分佈擬合:
#其中,為了驗證這個假設,研究在Proposition 1 中估計了此擬合的誤差。
然而,研究發現當t=1 時,隨著s 趨近1,也將趨近於1,誤差無法忽略。因此,Proposition 1 並不能證明 t=1 時的逆高斯特性。為了解決這個問題,研究給出了新的命題:
#根據Proposition 2,當t=1 時,隨著s 趨近1,將趨近於0。由此,研究證明了包含奇點時刻的逆過程全過程都符合高斯特性。
奇點時刻的取樣
有了逆過程高斯特性的保證,研究基於逆向取樣公式對奇點時刻的取樣展開了研究。
首先考慮 t=1 時刻的奇點問題。當t=1 時,=0,下面的採樣公式將出現分母除0 的情況:
研究團隊發現,透過計算極限,此奇點可以轉換為可去奇點:
然而,這一極限無法在測試過程中進行計算。為此,該研究提出可以在 t=1 時刻擬合,使用 “x - 預測”,來解決的初始奇點處的取樣問題。
接著考慮t=0 時刻,高斯分佈擬合的逆過程將變成方差為0 的高斯分佈,即狄拉克函數:
其中。這樣的奇異性會使得取樣過程收斂到正確的資料
上。因此,t=0 處的奇點是擴散模型良好的性質,並不需要規避。
此外,研究還在附錄中探討了 DDIM,SDE,ODE 中的奇點問題。
即插即用的SingDiffusion 模組
#奇點處的取樣會影響擴散模型生成影像的品質。例如,在輸入高或低亮度的提示時,現有方法往往只能產生平均灰階的影像,這稱為平均灰階問題。這個問題源自於現有方法忽略了 t=0 時奇點處的取樣,而是在 1-ϵ 時刻使用標準高斯分佈作為初始分佈進行取樣。然而,如上圖所示,標準高斯分佈與實際的 1-ϵ 時刻的資料分佈存在較大的差距。
在這樣的差距下,根據Proposition 3,現有方法等同於在t=1 時朝著一個均值為0 的圖像進行生成,即平均灰階影像。因此,現有方法難以產生亮度極強或極弱的影像。為了解決這個問題,該研究提出了一個即插即用的 SingDiffusion 方法,透過擬合標準高斯分佈與實際資料分佈之間的轉換來彌補這一差距。
SingDiffuion 的演算法如下圖所示:
# 根據上一節的結論,該研究在t=1 時刻使用了「x - 預測」方法來解決奇點處的取樣問題。對於圖文資料對,該方法訓練了一個 Unet
#來擬合
。損失函數表示為:
模型收斂後,就可以依照下面的DDIM 取樣公式並使用新得到的模組取樣
。
DDIM 的取樣公式確保了產生的符合1-ε 時刻的資料分佈
,從而解決了平均灰度問題。在這步驟之後,就可以使用預先訓練的模型執行後續的取樣步驟,直到產生
。值得注意的是,由於該方法僅參與第一步的採樣,與後續的採樣過程無關,因此 SingDiffusion 可以應用在絕大多數現有的擴散模型中。另外,為了避免無分類器指導操作導致的資料溢出問題,該方法還使用了以下的歸一化操作:
其中guidance表示無分類器指導操作後的結果,neg 表示負面提示下的輸出,pos 表示正面提示下的輸出,ω 表示指導強度。
實驗
首先,研究在SD-1.5、SD-2.0-base 和SD-2.0 三個模型上驗證了SingDiffusion解決平均灰階問題的能力。研究選擇了四個極端的提示,包括“純白/ 黑背景” 和“單色線條藝術標誌在白/ 黑背景上”,作為條件進行生成,併計算生成圖像的平均灰度值,如下表所示:
從表格中可以看出,研究能夠顯著地解決平均灰階值問題,產生符合輸入文字描述亮度的圖像。此外,研究也視覺化了這四個提示語句下的生成結果,如下圖所示:
從圖中可以看出,加入此方法後,現有的擴散模型能夠產生偏黑或偏白的影像。
為了進一步研究該方法對於影像品質的提升,該研究在 COCO 資料集上選擇了 30,000 個描述進行了測試。首先,研究展示了在不使用無分類器引導下,模型本身的生成能力,如下表所示:
從表格中可以看出,所提出的方法能夠顯著降低生成影像的FID,並提升CLIP 指標。值得注意的是,在 SD-1.5 模型中,該論文中的方法相比於原始模型在 FID 指標上降低了 33%。
進一步地,為了驗證所提出方法在無分類器引導下的生成能力,研究也在下圖中展示了在不同引導大小ω∈[1.5,2,3 ,4,5,6,7,8] 下CLIP v.s. FID 的帕累托曲線:
從圖中可以看出,在在相同的CLIP 水平下,所提出的方法能夠獲得更低的FID 數值,產生更逼真的影像。
此外,研究也展示了所提出方法在不同CIVITAI 預訓練模型下的泛化能力,如下圖所示:
可以看出,該研究所提出的方法只需進行一次訓練,即可輕鬆應用到現有的擴散模型中,解決平均灰階問題。
最後,研究所提出的方法也能夠無縫地應用到預訓練的ControlNet 模型上,如下圖所示:
從結果可以看出,此方法能有效解決ControlNet 的平均灰階問題。
以上是生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

記事本++7.3.1
好用且免費的程式碼編輯器

Atom編輯器mac版下載
最受歡迎的的開源編輯器