搜尋
首頁科技週邊人工智慧檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

近來,Stable Diffusion 成為新興的研究方向。一位名為 Matthias Bühlmann 的部落客嘗試實驗探究這種模型的強大功能,結果發現 Stable Diffusion 是一個非常強大的有損影像壓縮編解碼器。他寫了一篇部落格描述了這個實驗分析過程,以下是部落格原文。

首先Matthias Bühlmann 給出在高壓縮因子條件下,Stable Diffusion 方法與JPG、WebP 的壓縮結果,所有結果都是512x512 像素的解析度:

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

#舊金山風景圖,由左至右:JPG (6.16kB), WebP (6.80kB), Stable Diffusion: (4.96kB)。

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

#糖果店,由左至右:JPG (5.68kB), WebP (5.71 kB), Stable Diffusion (4.98kB)。

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

#動物照片,由左至右:JPG (5.66 kB), WebP (6.74kB), Stable Diffusion (4.97kB)。

這些範例明顯表明,與 JPG 和 WebP 相比,使用 Stable Diffusion 壓縮映像可以在較小的檔案大小下保留更出色的影像品質。

探究實驗

Matthias Bühlmann 分析了一下其中的工作原理,Stable Diffusion 使用三個串聯的訓練好的人工神經網路:

  • #變分自編碼器(Variational Auto Encoder,VAE)
  • #U-Net
  • ##文字編碼器(Text Encoder)

VAE 將影像空間中的影像編碼和解碼為某種潛在的空間表徵。來源影像(512 x 512,3x8 或 4x8 bit)的潛在空間表徵會解析度更低(64 x 64)、精度更高(4x32 bit)。

VAE 在訓練過程中自行學習,隨著模型的逐步訓練,不同版本模型的潛在空間表徵看起來可能會有所不同,例如Stable Diffusion v1.4 的潛在空間表徵如下(重新映射為4-channel 彩色圖像):

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

#當重新擴展和將潛在特徵解釋為顏色值(使用alpha channel )時,影像的主要特徵仍然可見,並且VAE 還將更高解析度的特徵編碼到像素值中。

例如,透過一次VAE 編碼/ 解碼roundtrip 得到以下結果:

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

值得注意的是,這種roundtrip 並不是無損的。例如,圖中藍色帶子上白色的字在解碼後可讀性稍差了一些。 Stable Diffusion v1.4 模型的 VAE 一般較不擅長表徵小型文字和人臉。

我們知道,Stable Diffusion 的主要用途是根據文字描述產生圖像,這就要求該模型要對圖像的潛在空間表徵進行操作。該模型使用經過訓練的 U-Net 迭代地對潛在空間圖像進行去噪,輸出它在噪聲中“看到”(預測)的內容,類似於我們有時把雲看成某種形狀或面孔。在迭代去噪步驟中,第三個 ML 模型(文字編碼器)指導 U-Net 嘗試看到不同的資訊。

Matthias Bühlmann 分析了 VAE 產生的潛在表徵(latent representation)是如何進行有效壓縮的。他發現對 VAE 中的潛在表徵進行取樣或對潛在表徵應用現有的有損影像壓縮方法,都會大幅降低重構影像的質量,而 VAE 解碼過程似乎對潛在表徵的品質穩健性較高。

Matthias Bühlmann 將潛在表徵從浮點數化為 8-bit 無符號整數,結果發現只有非常小的重構誤差。如下圖所示,左:32-bit 浮點潛在表徵;中:ground truth;右:8-bit 整數潛在表徵。

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

他也發現透過 palette 和抖動演算法進一步量化,得到的結果會出乎意料的好。然而,當直接使用VAE 解碼時,palettized 表徵會導致一些可見的偽影:

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

左:32-bit 潛在表徵;中:8-bit 量化潛在表徵;右:帶有Floyd-Steinberg 抖動的palettized 8-bit 潛在表徵

帶有Floyd-Steinberg 抖動的palettized 表徵引入了噪聲,使解碼結果失真。於是 Matthias Bühlmann 使用 U-Net 來去除抖動所帶來的雜訊。經過4 次迭代,重構結果在視覺上非常接近未量化的版本:

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

重構結果(左:帶有Floyd-Steinberg 抖動的palettized 表徵;中:經過四次迭代去噪;右:Ground Truth)。

雖然結果非常好,但還是會引入一些偽影,例如上圖中心形符號上的光澤陰影。

雖然從主觀上看,Stable Diffusion 壓縮影像的結果比 JPG 和 WebP 好得多,但從 PSNR、SSIM 等指標看,Stable Diffusion 並沒有明顯的優勢。

如下圖所示,雖然作為編解碼器的Stable Diffusion 在保留影像粒度方面比其他方法好得多,但受壓縮偽影的影響,影像中物體形狀等特徵可能會改變。

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

#左:JPG 壓縮;中:Ground Truth;右:Stable Diffusion 壓縮。

值得注意的是,目前的Stable Diffusion v1.4 模型在壓縮過程中無法很好地保留字體很小的文字訊息和人臉特徵,但Stable Diffusion v1.5 模型在人臉生成方面有所改進。

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

#左:Ground Truth;中:經過VAE roundtrip (32-bit 潛在特徵) ;右:從palettized 去噪8-bit 潛在特徵解碼的結果。

部落格發布後,Matthias Bühlmann 的實驗分析引起了大家的討論。

Matthias Bühlmann 自己認為 Stable Diffusion 的影像壓縮效果比預期好,U-Net 似乎能夠有效消除抖動所引入的雜訊。不過,Stable Diffusion 模型未來的版本可能不會再有這種影像壓縮特性。

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

然而有網友質疑:「VAE 本身就被用於圖像壓縮」,例如基於Transformer 的圖像壓縮方法TIC 就用到了VAE架構,所以Matthias Bühlmann 的實驗似乎是大材小用了。

檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?

對此,你有什麼看法?

以上是檔案更小,品質更高,大火的Stable Diffusion還能壓縮影像?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境