首頁 >科技週邊 >人工智慧 >CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

WBOY
WBOY轉載
2024-03-28 15:47:121132瀏覽
拡散モデルは、画像生成における優れたパフォーマンスにより、生成モデルの新時代を切り開きます。 Stable Diffusion、DALLE、Imagen、SORA などの大規模なモデルが登場し、生成 AI の応用の可能性がさらに豊かになりました。しかし、現在の拡散モデルは理論的には完璧ではなく、サンプリング時間のエンドポイントにおける未定義の特異点の問題に注目した研究はほとんどありません。さらに、アプリケーションの特異点問題によって引き起こされる平均グレーレベルや、生成される画像の品質に影響を与えるその他の問題は解決されていません。

この問題を解決するために、WeChat ビジョン チームは中山大学と協力して拡散モデルの特異点問題を共同で調査し、プラグアンド アンド ソリューションを提案しました。 play メソッドを使用して、初期段階でのサンプリング問題を効果的に解決します。この方法は、平均グレーレベルの問題を解決し、既存の拡散モデルの生成能力を大幅に向上させます。研究結果はCVPR 2024カンファレンスで発表された。

拡散モデルは、画像、音声、テキスト、ビデオの生成など、マルチモーダルなコンテンツ生成タスクで目覚ましい成功を収めています。これらのモデルのモデリングが成功するかどうかは、主に、 拡散プロセスの逆プロセスもガウス特性 に準拠するという仮定に依存しています。ただし、この仮説は完全には証明されていません。特にエンドポイント、つまり t=0 または t=1 では特異点の問題が発生し、特異点でのサンプリングを研究する既存の方法が制限されます。

さらに、特異点問題は拡散モデルの生成能力にも影響し、モデルに 平均グレースケール問題 が発生します。 , 以下に示すように、明るさの強い画像や弱い画像を生成することは困難です。これにより、現在の普及モデルの適用範囲もある程度制限されます。

時間エンドポイントにおける拡散モデルの特異点問題を解決するために、WeChat ビジュアル チームは中山大学と協力し、双方から綿密な調査を実施しました。理論的および実践的な側面。まず、チームは、特異点の瞬間における逆過程の近似ガウス分布を含む誤差上限を提案しました。これは、その後の研究に理論的基礎を提供しました。この理論的保証に基づいて、チームは特異点でのサンプリングを研究し、2 つの重要な結論に達しました。1) t=1 の特異点は、極限を見つけることで分離可能な特異点に変換できる、2) t=0 での特異点これは拡散モデルの固有の特性であり、回避する必要はありません。これらの結論に基づいて、チームは初期瞬間における拡散モデルのサンプリングの問題を解決するためのプラグアンドプレイ手法 SingDiffusion を提案しました。

多数の実験検証により、SingDiffusion モジュールは 1 回のトレーニングだけで既存の拡散モデルにシームレスに適用でき、平均グレー値の問題が大幅に解決されることが示されています。 。 SingDiffusion は、分類子を使用しないガイダンス技術を使用せずに、現在の手法の生成品質を大幅に向上させることができ、特に Stable Diffusion1.5 (SD-1.5) に適用した後は、生成される画像の品質が 33% 向上しました。
CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题論文アドレス: https://arxiv.org/pdf/2403.08381.pdf
プロジェクト アドレス: https://pangzecheung.github.io/ SingDiffusion /
論文タイトル: 拡散モデルにおける時間間隔の終点における特異点への取り組み

逆過程のガウス特性
#拡散モデルの特異点問題を検討するには、特異点での逆過程を含む過程全体がガウス性を満たしていることを検証する必要があります。まず
を拡散モデルのトレーニング サンプルとして定義します。トレーニング サンプルの分布は次のように表現できます:
CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题
其中 δ 表示狄拉克函數。根據[1] 中連續時間擴散模型的定義,對於任兩個時刻0≤s,t≤1,正向過程可以表示為:
CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题
##其中
CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题隨著時間單調的從1 變化到0。考慮到剛剛定義的訓練樣本分佈,CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题的單時刻邊際機率密度可以表示為:CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

由此,可以透過貝葉斯公式計算逆過程的條件分佈:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

然而,經過的分佈是混合高斯分佈,難以用網路進行擬合。因此,主流的擴散模型通常假設這一分佈可以由單一高斯分佈來擬合。

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题


#其中,
為了驗證這個假設,該研究在 Proposition 1 中估計了此擬合的誤差。 CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

然而,研究發現當 t=1 時,隨著 s 趨近 1,
也會趨近於 1,誤差無法忽略。因此,Proposition 1 並不能證明 t=1 時的逆高斯特性。為了解決這個問題,研究給出了新的命題:CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

根據 Proposition 2,當 t=1 時,隨著 s 趨近 1,CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题將趨近於 0。由此,研究證明了包含奇點時刻的逆過程全過程都符合高斯特性。

奇點時刻的取樣

#有了逆過程高斯特性的保證,該研究基於逆向採樣公式對奇點時刻的採樣展開了研究。

首先考慮 t=1 時刻的奇點問題。當t=1 時,CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題=0,下面的採樣公式將出現分母除0 的情況:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

研究團隊發現,透過計算極限,該奇點可以轉化為可去奇點:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

然而,這一極限無法在測試過程中進行計算。為此,該研究提出可以在 t=1 時刻擬合CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题,使用 “x - 預測”,來解決的初始奇點處的採樣問題。

接著考慮t=0 時刻,高斯分佈擬合的逆過程將變成方差為0 的高斯分佈,即狄拉克函數: 

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

其中CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题。這樣的奇異性會使得採樣過程收斂到正確的資料CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题上。因此,t=0 處的奇點是擴散模型良好的性質,並不需要規避。

此外,研究也在附錄中探討了 DDIM,SDE,ODE 中的奇點問題。

即插即用的SingDiffusion 模組
CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题
##「奇點處的取樣會影響擴散模型產生影像的品質。例如,在輸入高或低亮度的提示時,現有方法往往只能產生平均灰階的影像,這稱為平均灰階問題。這個問題源自於現有方法忽略了 t=0 時奇點處的取樣,而是在 1-ϵ 時刻使用
標準高斯分佈作為初始分佈進行取樣。然而,如上圖所示,標準高斯分佈與實際的 1-ϵ 時刻的資料分佈存在較大的差距。

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

При таком разрыве согласно Предложению 3 существующий метод эквивалентен генерации изображения со средним значением 0 при t=1, то есть среднего изображения в оттенках серого. Поэтому существующим методам сложно генерировать изображения с чрезвычайно сильной или слабой яркостью. Чтобы решить эту проблему, в этом исследовании предлагается готовый к использованию метод SingDiffusion, позволяющий устранить этот разрыв путем адаптации преобразования между стандартным распределением Гаусса и фактическим распределением данных.

Алгоритм SingDiffuion показан на рисунке ниже:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

Согласно выводу предыдущего раздела, это исследование в момент t = 1 использует метод «х-прогнозирования» для решения проблемы выборки в особой точке. Для пары данных изображение-текст CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题 этот метод обучает UnetCVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题 соответствовать CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题. Функция потерь выражается как:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

После того, как модель сходится, вы можете следовать приведенной ниже формуле выборки DDIM и использовать вновь полученный модуль CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題samplingCVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题.

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

DDIM 的取樣公式確保了產生的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題符合 1-ε 時刻的資料分佈CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题,從而解決了平均灰階問題。在這步驟之後,就可以使用預先訓練的模型執行後續的取樣步驟,直到產生CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题。值得注意的是,由於該方法僅參與第一步的採樣,與後續的採樣過程無關,因此 SingDiffusion 可以應用在絕大多數現有的擴散模型中。另外,為了避免無分類器指導操作導致的資料溢出問題,此方法也使用了以下的歸一化操作:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

其中guidance 表示無分類器指導操作後的結果,neg 表示負面提示下的輸出,pos 表示正面提示下的輸出,ω 表示指導強度。

實驗

#首先,研究在SD-1.5、SD-2.0- base 和SD-2.0 三個模型上驗證了SingDiffusion 解決平均灰階問題的能力。研究選擇了四個極端的提示,包括“純白/ 黑背景” 和“單色線條藝術標誌在白/黑背景上”,作為條件進行生成,併計算生成圖像的平均灰度值,如下表所示: 

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

從表格中可以看出,研究能夠顯著地解決平均灰階值問題,產生符合輸入文字描述亮度的圖像。此外,研究也視覺化了這四個提示語句下的生成結果,如下圖所示:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

從圖中可以看出,加入方法後,現有的擴散模型能夠產生偏黑或偏白的圖像。

為了進一步研究該方法對於影像品質的提升,該研究在 COCO 資料集上選擇了 30,000 個描述進行了測試。首先,研究展示了在不使用無分類器引導下,模型本身的生成能力,如下表所示:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

#從表格中可以看出,所提出的方法能夠顯著降低產生影像的FID,並提升CLIP 指標。值得注意的是,在 SD-1.5 模型中,該論文中的方法相比於原始模型在 FID 指標上降低了 33%。

進一步地,為了驗證所提出方法在無分類器引導下的生成能力,該研究還在下圖​​中展示了在不同引導大小ω∈[1.5, 2,3,4,5,6,7,8] 下CLIP v.s. FID 的帕累托曲線:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

從圖中可以看出,在相同的 CLIP 水準下,所提出的方法能夠獲得更低的 FID 數值,產生更逼真的影像。

此外,研究也展示了所提出方法在不同CIVITAI 預訓練模型下的泛化能力,如下圖所示:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

可以看出,該研究所提出的方法只需進行一次訓練,即可輕鬆地應用到現有的擴散模型中,解決平均灰階問題。

最後,研究所提出的方法也能夠無縫地應用到預訓練的ControlNet 模型上,如下圖所示:

CVPR 2024|生成不了光线极强的CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題?微信视觉团队有效解决扩散模型奇点问题

從結果中可以看出,此方法能有效解決ControlNet 的平均灰階問題。

參考文獻:
#[1] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. Advances in Neural Information Processing Systems (NeurIPS), pages 26565–26577, 2022. 3

以上是CVPR 2024|生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除