影像重採樣 (Image Rescaling,LR) 任務聯合優化影像下取樣和上取樣操作,透過對影像解析度的下降和還原,可以用於節省儲存空間或傳輸頻寬。在實際應用中,例如圖集服務的多檔位分發,下採樣得到的低解析度影像往往會進行有損壓縮,而有損壓縮往往導致現有演算法的效能大幅下降。
近期,位元組跳動- 火山引擎多媒體實驗室#首次嘗試了有損壓縮下的影像重採樣性能優化,設計了一種非對稱可逆重採樣框架,基於此框架下的兩點觀察,進一步提出了抗壓縮影像重採樣模型SAIN。該研究將一組可逆網路模組解耦成重採樣和壓縮模擬兩個部分,使用混合高斯分佈建模分辨率下降和壓縮失真造成的聯合資訊損失,結合可微的JPEG 算子進行端到端訓練,大幅提升了對於常見壓縮演算法的穩健性。
目前對於影像重採樣的研究,SOTA 方法是基於可逆網路(Invertible Network) 建構一個雙射函數(bijective function),其正運算將高解析度(HR)影像轉換為低解析度(LR) 影像和一系列服從標準常態分佈的隱變量,逆運算則隨機取樣隱變量,結合LR 影像進行上取樣還原。
由於可逆網路的特性,下取樣和上取樣算子保持高度的對稱性(symmetry),這就導致受壓縮的LR 影像難以透過原本學得的上取樣算子進行還原。為了增強對於有損壓縮的穩健性,研究提出了一個基於非對稱可逆框架的抗壓縮影像重採樣模型SAIN (Self-Asymmetric I nvertible Network)。
SAIN 模型的核心創新點如下:
- #提出了非對稱(asymmetric) 式的可逆影像重採樣框架,解決了先前方法中由於嚴格對稱性導致的性能下降問題;提出了增強可逆模組(E-InvBlock),在共享大量參數和運算的前提下,增強模型擬合能力,同時建模壓縮前和壓縮後的兩組LR 影像,使模型能夠透過逆運算進行壓縮恢復和上取樣。
- 建構可學習的混合高斯分佈,建模解析度下降和有損壓縮造成的聯合資訊損失,透過重參數化技巧直接優化分佈參數,更符合隱變量的實際分佈。
SAIN 模型進行了 JPEG 和 WebP 壓縮下的效能驗證,在多個公開資料集上的表現大幅領先 SOTA 模型,相關研究已經入選 AAAI 2023 Oral。
- #論文網址:https://arxiv.org/abs/2303.02353
- 程式碼連結:https://github.com/yang-jin-hai/SAIN
非對稱重採樣框架
#圖1 Dual-IRN 模型圖。
為了提升抗壓縮性能,研究首先設計了一個非對稱式的可逆影像重採樣框架,提出了baseline 方案Dual-IRN 模型,深入分析了此方案的不足之處後,進一步優化提出了SAIN 模型。如上圖所示,Dual-IRN 模型包含兩個分支,其中 D-IRN 和 U-IRN 為兩組可逆網絡,分別學習 HR 影像與壓縮前 / 壓縮後 LR 影像之間的雙射。
在訓練階段,Dual-IRN 模型透過可微的 JPEG 算子傳遞兩個分支之間的梯度。而在測試階段,模型透過 D-IRN 進行下採樣獲得高品質的 LR 影像,經過現實環境中的真實壓縮後,再透過具有壓縮感知 (compression-aware) 的 U-IRN 完成壓縮恢復和上採樣。
這樣的非對稱框架,使得上取樣和下取樣的算符避免了嚴格的可逆關係,從根源解決了壓縮演算法破壞上下取樣過程對稱性帶來的問題,相對於SOTA 的對稱方案大幅提升了抗壓縮性能。
隨後,研究者對Dual-IRN 模型展開進一步的分析,觀察到以下兩個現象:
- 第一,衡量D-IRN 和U-IRN 兩個分支中間層特徵的CKA 相似性。如上圖(b) 所示,D-IRN 最後一層的輸出特徵(即網路產生的高品質LR 影像)與U-IRN 淺層的輸出特徵具有高度的相似性,顯示U-IRN 的淺層行為更貼近取樣損失的模擬,而深層行為更貼近壓縮損失的模擬。
- 第二,統計 D-IRN 和 U-IRN 兩個分支中間層隱變數的真實分佈。如上圖(c)(d) 所示,不具壓縮感知的D-IRN 的隱變量整體上滿足單峰的正態分佈假設,而具有壓縮感知的U-IRN 的隱變量則呈現了多峰的形態,顯示有損壓縮帶來的資訊損失形式更加複雜。
基於上述分析,研究人員從多個方面對模型進行最佳化,最終得到的SAIN 模型不僅網路參數量下降了將近一半,並且還取得了進一步的性能提升。
SAIN 模型細節
#圖 2 SAIN 模型圖。
SAIN 模型的架構如上圖所示,主要進行了以下四個面向的改進:
1. 整體框架方面。基於中間層特徵的相似性,將一組可逆網路模組解耦成重採樣和壓縮模擬兩個部分,形成自非對稱 (self-asymmetric) 架構,避免使用兩組完整的可逆網絡。在測試階段,使用正變換
取得高品質的LR 影像,先使用逆變換
進行壓縮恢復,再使用逆變換
#進行上取樣。
2. 網路結構方面。基於壓縮損失能夠借助高頻資訊恢復的假設提出 E-InvBlock,在模組中增加一個加性變換,使得共享大量運算的前提下可以高效地建模壓縮前 / 壓縮後的兩組 LR 圖像。
3. 資訊損失建模方面。基於隱變量的真實分佈,提出使用可學習的混合高斯分佈建模下採樣和有損壓縮帶來的聯合資訊損失,透過重參數化技巧端到端優化分佈參數。
4. 目標函數方面。設計了多個損失函數,用於約束網路的可逆性、提高重建精度,同時在損失函數中引入真實壓縮操作以增強對真實壓縮方案的穩健性。
實驗與效果評估
評估資料集為 DIV2K 驗證集和 Set5、Set14、BSD100 和 Urban100 四個標準測試集。
量化評估指標為:
#- PSNR:Peak Signal-to-Noise Ratio,峰值訊號雜訊比,反映重建影像與原始影像的均方誤差,越高越好;
- SSIM:Structural Similarity Image Measurement,衡量重建影像與原始影像的結構相似度,越高越好。
在表 1 和圖 3 的比較實驗中,SAIN 在所有資料集上的 PSNR 和 SSIM 分數都大幅領先 SOTA 的影像重採樣模型。在比較低的 QF 下,現有方法普遍出現嚴重的表現下降,而 SAIN 模型仍保持最佳表現。
表1 比較實驗,在DIV2K 資料集上比較不同JPEG 壓縮品質(QF) 下的重建品質(PSNR / SSIM)。
#圖3 比較實驗,在四個標準測試集上比較不同JPEG QF 下的重建品質(PSNR)。
在圖 4 的視覺化結果中,可以明顯看出 SAIN 還原的 HR 影像更清晰、準確。
圖 4 不同方法在 JPEG 壓縮下的視覺化結果比較 (×4 倍率)。
在表 2 的消融實驗中,研究人員也比較了其他幾種結合真實壓縮進行訓練的候選方案。這些候選方案相較於完全對稱的現有模型 (IRN) 具有更高的抗壓縮性能,但在參數量和準確率上仍不如 SAIN 模型。
表 2 針對整體框架和訓練策略的消融實驗。
在圖 5 的視覺化結果中,研究人員比較了 WebP 壓縮失真下不同影像重採樣模型的重建結果。可以發現,SAIN 模型在 WebP 壓縮方案下同樣表現出了最高的重建分數,能夠清晰且準確地還原影像細節,證明了 SAIN 對於不同壓縮方案的兼容性。
圖 5 不同方法在 WebP 壓縮下的定性和定量對比 (×2 倍率)。
除此之外,該研究還針對混合高斯分佈、E-InvBlock 和損失函數等部分進行了消融實驗,證明了這些改進對於結果的正向貢獻。
總結與展望
火山引擎多媒體實驗室針對抗壓縮影像重採樣提出了一個基於非對稱可逆框架的模型:SAIN。模型包含重採樣和壓縮模擬兩個部分,使用混合高斯分佈建模分辨率下降和壓縮失真造成的聯合資訊損失,結合可微的JPEG 算子進行端到端訓練,提出E-InvBlock 來增強模型擬合能力,大幅提升了對於常見壓縮演算法的穩健性。
火山引擎多媒體實驗室是位元組跳動旗下的研究團隊,致力於探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新演算法及軟硬體解決方案已廣泛應用於抖音、西瓜影片等產品的多媒體業務,並向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會及旗艦期刊,並獲得數項國際級技術賽事冠軍、產業創新獎及最佳論文獎。
未來,研究團隊將繼續優化影像重採樣模型在有損壓縮下的性能,並且進一步探索抗壓縮視訊重採樣、任意倍率重採樣等更複雜的應用情景。
以上是位元組提出非對稱影像重採樣模型,JPEG、WebP上抗壓縮效能領先SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

Dreamweaver CS6
視覺化網頁開發工具

Dreamweaver Mac版
視覺化網頁開發工具