首頁  >  文章  >  科技週邊  >  生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

王林
王林轉載
2024-03-28 15:06:30785瀏覽

扩散模型在图像生成方面的色彩表现中发挥了作用,推动了生成式模型的新纪元。如Stable Diffusion、DALLE、Imagen、SORA等大模型如雨后春笋般涌现,进一步丰富了生成式AI的应用背景。然而,当前的扩散模型在理论上并非完美,鲜有研究关注到采样样本时段端点处未定义的奇点问题。此外,奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。

为了解决这一难题,微信视觉团队与中山大学合作,联手探究了扩散模型中的奇点问题,并提出了一个即插即用的方法,有效解决了初始时刻的采样问题。该方法成功解决了平均灰度问题,显著提升了现有扩散模型的生成能力。这一研究成果已在CVPR 2024 会议上发表。

扩散模型在多模态内容生成任务中取得了显著的成功,包括图像、音频、文本和视频等生成。这些模型的成功建模大多依赖于一个假设,即扩散过程的逆过程也符合高斯特性。然而,这一假设并没有得到充分证明。特别是在端点处,即 t=0 或 t=1,会出现奇点问题,限制了现有方法对奇点处采样的研究。

此外,奇点问题也会影响扩散模型的生成能力,导致模型出现平均灰度问题,即难以生成亮度强或者弱的图像,如图下所示。这在一定程度上也限制了当前扩散模型的应用范围。

为了解决扩散模型在时间端点处的奇点问题,微信视觉团队与中山大学合作,从理论和实践两个方面展开了深入探究。首先,该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界,为后续研究提供了理论基础。基于这一理论保障,团队对奇点处的采样进行了研究,并得出了两个重要的结论:1)t=1 处的奇点可以通过求取极限转化为可去奇点,2)t=0 处的奇点是扩散模型的固有特性,不需要规避。基于这些结论,该团队提出了一个即插即用的方法:SingDiffusion,用于解决扩散模型在初始时刻采样的问题。

通 过 大 量 的 实 验 验 证 明,仅 需 训 练 一 次,SingDiffusion 模 块 即 可 无 缝 应 用 到 现 有 的 扩 散 模 型 中,显 著 地 解 决 了 平 均 灰 度 值 的 问 题。在 不 使 用 无 分 类 器 指 引 技 术 的 情 况 下,SingDiffusion 能 够 显 著 提 升 当 前 方法 的 生 成 质 量,特 别 是 在 应 用 于 Stable Diffusion 1.5(SD-1.5)后,其 生 成 的 图 像 质 量 更 是 提 升 了 33%。

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

论文地址:https://arxiv.org/pdf/2403.08381.pdf

项目地址:https://pangzecheung.github.io/SingDiffusion/

论文题目:Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

逆过程的高斯特性

为了研究扩散模型的奇点问题,需要验证全过程包含奇点处的逆过程满足高斯特性。首先定义生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題为扩散模型的训练样本,训练样本的分布可以表示为:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

其中 δ 表示狄拉克函数。根据 [1] 中连续时间扩散模型的定义,对于任意两个时刻 0≤s,t≤1,正向过程可以表示为:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

其中生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題#,生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題隨著時間單調的從1 變化到0。考慮到剛剛定義的訓練樣本分佈,生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題的單一時刻邊際機率密度可以表示為:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

由此,可以透過貝葉斯公式計算逆過程的條件分佈:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

然而,得到的分佈是混合高斯分佈,難以用網路進行擬合。因此,主流的擴散模型通常假設這一分佈可以由單一高斯分佈擬合:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

#其中,生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題為了驗證這個假設,研究在Proposition 1 中估計了此擬合的誤差。

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

然而,研究發現當t=1 時,隨著s 趨近1,生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題也將趨近於1,誤差無法忽略。因此,Proposition 1 並不能證明 t=1 時的逆高斯特性。為了解決這個問題,研究給出了新的命題:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

#根據Proposition 2,當t=1 時,隨著s 趨近1,生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題將趨近於0。由此,研究證明了包含奇點時刻的逆過程全過程都符合高斯特性。

奇點時刻的取樣

有了逆過程高斯特性的保證,研究基於逆向取樣公式對奇點時刻的取樣展開了研究。

首先考慮 t=1 時刻的奇點問題。當t=1 時,生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題=0,下面的採樣公式將出現分母除0 的情況:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

研究團隊發現,透過計算極限,此奇點可以轉換為可去奇點:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

#

然而,這一極限無法在測試過程中進行計算。為此,該研究提出可以在 t=1 時刻擬合生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題,使用 “x - 預測”,來解決的初始奇點處的取樣問題。

接著考慮t=0 時刻,高斯分佈擬合的逆過程將變成方差為0 的高斯分佈,即狄拉克函數: 

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

其中生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題。這樣的奇異性會使得取樣過程收斂到正確的資料生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題上。因此,t=0 處的奇點是擴散模型良好的性質,並不需要規避。

此外,研究還在附錄中探討了 DDIM,SDE,ODE 中的奇點問題。

即插即用的SingDiffusion 模組

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

#奇點處的取樣會影響擴散模型生成影像的品質。例如,在輸入高或低亮度的提示時,現有方法往往只能產生平均灰階的影像,這稱為平均灰階問題。這個問題源自於現有方法忽略了 t=0 時奇點處的取樣,而是在 1-ϵ 時刻使用標準高斯分佈作為初始分佈進行取樣。然而,如上圖所示,標準高斯分佈與實際的 1-ϵ 時刻的資料分佈存在較大的差距。

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

在這樣的差距下,根據Proposition 3,現有方法等同於在t=1 時朝著一個均值為0 的圖像進行生成,即平均灰階影像。因此,現有方法難以產生亮度極強或極弱的影像。為了解決這個問題,該研究提出了一個即插即用的 SingDiffusion 方法,透過擬合標準高斯分佈與實際資料分佈之間的轉換來彌補這一差距。

SingDiffuion 的演算法如下圖所示:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

# 根據上一節的結論,該研究在t=1 時刻使用了「x - 預測」方法來解決奇點處的取樣問題。對於圖文資料對生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題,該方法訓練了一個 Unet生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題#來擬合生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題。損失函數表示為:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

模型收斂後,就可以依照下面的DDIM 取樣公式並使用新得到的模組生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題取樣生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

DDIM 的取樣公式確保了產生的生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題符合1-ε 時刻的資料分佈生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題,從而解決了平均灰度問題。在這步驟之後,就可以使用預先訓練的模型執行後續的取樣步驟,直到產生生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題。值得注意的是,由於該方法僅參與第一步的採樣,與後續的採樣過程無關,因此 SingDiffusion 可以應用在絕大多數現有的擴散模型中。另外,為了避免無分類器指導操作導致的資料溢出問題,該方法還使用了以下的歸一化操作:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

其中guidance表示無分類器指導操作後的結果,neg 表示負面提示下的輸出,pos 表示正面提示下的輸出,ω 表示指導強度。

實驗

首先,研究在SD-1.5、SD-2.0-base 和SD-2.0 三個模型上驗證了SingDiffusion解決平均灰階問題的能力。研究選擇了四個極端的提示,包括“純白/ 黑背景” 和“單色線條藝術標誌在白/ 黑背景上”,作為條件進行生成,併計算生成圖像的平均灰度值,如下表所示: 

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

從表格中可以看出,研究能夠顯著地解決平均灰階值問題,產生符合輸入文字描述亮度的圖像。此外,研究也視覺化了這四個提示語句下的生成結果,如下圖所示:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

從圖中可以看出,加入此方法後,現有的擴散模型能夠產生偏黑或偏白的影像。

為了進一步研究該方法對於影像品質的提升,該研究在 COCO 資料集上選擇了 30,000 個描述進行了測試。首先,研究展示了在不使用無分類器引導下,模型本身的生成能力,如下表所示:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

從表格中可以看出,所提出的方法能夠顯著降低生成影像的FID,並提升CLIP 指標。值得注意的是,在 SD-1.5 模型中,該論文中的方法相比於原始模型在 FID 指標上降低了 33%。

進一步地,為了驗證所提出方法在無分類器引導下的生成能力,研究也在下圖中展示了在不同引導大小ω∈[1.5,2,3 ,4,5,6,7,8] 下CLIP v.s. FID 的帕累托曲線:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

從圖中可以看出,在在相同的CLIP 水平下,所提出的方法能夠獲得更低的FID 數值,產生更逼真的影像。

此外,研究也展示了所提出方法在不同CIVITAI 預訓練模型下的泛化能力,如下圖所示:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

可以看出,該研究所提出的方法只需進行一次訓練,即可輕鬆應用到現有的擴散模型中,解決平均灰階問題。

最後,研究所提出的方法也能夠無縫地應用到預訓練的ControlNet 模型上,如下圖所示:

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

從結果可以看出,此方法能有效解決ControlNet 的平均灰階問題。

以上是生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除