近期,擴散模型憑藉其出色的性能已超越 GAN 和自回歸模型,成為生成式模型的主流選擇。基於擴散模型的文字轉影像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展現了生成高品質影像的驚人能力。通常,這些模型在特定解析度下進行訓練,以確保在現有硬體上實現高效處理和精確的模型訓練。
圖 1 : 採用不同方法在 SDXL 1.0 下產生 2048×2048 影像的比較。 [1]
在這些擴散模型中,經常會出現模式重複和嚴重的人工偽影(artifacts)問題。例如圖1最左側所示。超出訓練解析度時,這些問題尤其突出。
來自香港中文大學商湯科技聯合實驗室等機構的研究人員在一篇論文中深入研究了擴散模型中常用的UNet結構的捲積層,並從頻域分析的角度提出了FouriScale,如圖2所示。
圖 2 FouriScale 的流程(橘色線)示意圖,目的是確保跨解析度的一致性。
透過引入空洞卷積操作和低通濾波操作來取代預訓練擴散模型中的原始卷積層,能夠在實現不同解析度下的結構和尺度一致性。搭配「填滿然後裁剪」策略,該方法能夠靈活產生符合不同尺寸和長寬比的影像。此外,借助FouriScale作為指導,該方法在生成任意尺寸的高解析度影像時,能夠保證完整的影像結構和卓越的影像品質。 FouriScale 無需任何離線預測運算,具有良好的相容性和可擴充性。
定量和定性實驗結果表明,FouriScale 在利用預訓練擴散模型生成高解析度影像方面取得了顯著提升。
- #論文網址:https://arxiv.org/abs/2403.12963
- 開源程式碼:https://github.com/LeonHLJ/FouriScale
- 論文標題:FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
方法介紹
##1、空洞卷積保證跨解析度下的結構一致性
#擴散模型的去噪網路通常是在特定解析度的在影像或潛在空間上訓練的,這個網路通常採用U-Net 結構。作者的目標是在推理階段使用去噪網路的參數產生解析度更高的圖像,而無需重新訓練。為了避免推理解析度下的結構失真,作者嘗試在預設解析度和高解析度之間建立結構一致性。對於U-Net 中的捲積層,結構一致性可表述為:
#############其中k 是原本的捲積核,k' 是為更大解析度客製化的新卷積核。根據空間下取樣的頻域表示,如下:######################可以將公式(3)寫成:########## ############這個公式顯示了理想卷積核k' 的傅立葉頻譜應該是由s×s 個卷積核k 的傅立葉頻譜拼接而成的。換句話說,k' 的傅立葉頻譜應該有週期性重複,而這個重複模式是 k 的傅立葉頻譜。 ############廣泛使用的空洞卷積正好滿足這個要求。空洞卷積的頻域週期性可以用下式表示:######當利用預訓練擴散模型(訓練解析度為(h,w))產生(H,W) 的高解析度影像時,空洞卷積的參數使用原始卷積核,擴張因子為(H/h, W/w),是理想的捲積核k'。
2、低通濾波保證跨解析度下的尺度一致性
然而,只利用空洞卷積無法完美解決問題,如圖3 左上角所示,只使用空洞卷積仍然在細節上存在模式重複的現象。作者認為這是因為空間下取樣的頻率混疊現象改變了頻域分量,導致了不同解析度下頻域分佈的差異。為了確保跨解析度下的尺度一致性,他們引入了低通濾波來過濾掉高頻分量,以去除空間下取樣後的頻率混疊問題。從圖 3 右側對比曲線可以看到,在使用低通濾波後,高低解析度下的頻率分佈更接近,從而保證了尺度一致。從圖 3 左下角圖看到,使用低通濾波後,細節的模式重複現像有明顯地改善。
圖 3 (a) 是否採用低通濾波的視覺對比。 (b)不採用低通濾波的傅立葉相對對數幅值曲線。 (c) 採用低通濾波的傅立葉相對對數振幅曲線。
3、適應任意尺寸的圖片產生
以上的方式只能適應於生成解析度與預設推理解析度的長寬比一致時,為了使FouriScale 適應於任意尺寸的圖像生成,作者採用了一種「填充然後裁剪」的方式,方法1 中展示了結合了該策略的FouriScale 的偽代碼.
4、FouriScale 引導
由於FouriScale 中的頻域操作,不可避免的使生成的影像出現了細節缺失與不期望的偽影問題。為了解決這個問題,如圖 4,作者提出了將 FouriScale 作為引導的方式。具體來說,在原本的條件產生估計值以及無條件產生估計的基礎上,他們引入一個額外的條件生成估計。這個額外的條件產生估計的生成過程同樣採用空洞卷積,但是使用更溫和的低通濾波,從而確保細節不會丟失。同時他們將利用FouriScale 輸出的條件生成估計中的注意力分數替換掉這一額外的條件生成估計中的注意力分數,由於注意力分數包含著生成圖像中的結構信息,這一操作將FouriScale 中正確的影像結構資訊引入,同時保證了影像品質。
圖 4 (a) FouriScale 引導示意圖。 (b)不採用 FouriScale 作為引導的生成影像,有明顯的偽影和細節錯誤。 (c) 採用 FouriScale 作為引導的生成影像。
實驗
1. 量化試驗結果
作者遵循[1] 的方法,測試了三個文生圖模型(包括SD 1.5,SD 2.1 和SDXL 1.0),產生四種更高解析度的圖像。測試的解析度是它們各自訓練解析度的 4 倍、6.25 倍、8 倍和 16 倍像素數量。在Laion-5B 上隨機取樣30000/10000 個圖文對測試的結果如表1 所示:
表1 不同的無訓練方法的量化結果比較
他們的方法在各個預訓練模型,不同解析度下都獲得了最優的結果。
2.定性試驗結果
#如圖5 所示,他們的方法在各個預訓練模型,不同解析度下都能夠確保影像產生品質與一致的結構。
圖5 不同的無訓練方法的生成圖像比較
結論
本文提出了FouriScale 用於增強預訓練擴散模型產生高解析度影像的能力。 FouriScale 從頻域分析出來,透過空洞卷積和低通濾波操作改善了不同解析度下的結構和尺度一致性,解決了重複模式和結構失真等關鍵挑戰。採用「填充然後裁剪」策略並利用 FouriScale 作為指導,增強了文字到圖像生成的靈活性和生成質量,同時適應了不同的長寬比生成。定量和定性的實驗對比表明,FouriScale 能夠在不同預訓練模型,不同解析度下都能夠保證更高的影像產生品質。
以上是無需訓練,這個新方法實現了生成圖像尺寸、解析度自由的詳細內容。更多資訊請關注PHP中文網其他相關文章!

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

SublimeText3漢化版
中文版,非常好用

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具