首頁 >科技週邊 >人工智慧 >ACM MM 2023 | DiffBFR: 美圖&國科大聯合提出的噪音抑制人臉修復方法

ACM MM 2023 | DiffBFR: 美圖&國科大聯合提出的噪音抑制人臉修復方法

WBOY
WBOY轉載
2023-09-03 08:05:10962瀏覽

盲人臉恢復(Blind Face Restoration, BFR)的目標是從低品質的人臉影像中恢復高品質的人臉影像。這是電腦視覺和圖形學領域的一項重要任務,在監控影像修復、舊照片修復和人臉影像超解析度等多種場景中得到廣泛應用

然而,這個任務非常具有挑戰性,因為不確定性的退化會損害影像的質量,甚至會導致影像資訊的遺失,例如模糊、雜訊、下取樣和壓縮偽影等問題。先前的BFR方法通常依賴生成對抗網路(GAN),透過設計各種特定於人臉的先驗來解決這些問題,包括生成先驗、參考先驗和幾何先驗。儘管這些方法已經達到了最先進的水平,但仍然無法完全實現在恢復細節的同時獲得逼真紋理的目標

在圖像修復過程中,人臉圖像的數據集通常分散在高維空間中,且分佈的特徵維度呈現長尾分佈形式。與影像分類任務的長尾分佈不同,影像修復中的長尾區域特徵指的是對身分認同影響較小,而對視覺效果影響很大的屬性,例如痣、皺紋和色調等等

#根據圖1所示的簡單為了不改變原始意義,需要將實驗結果重寫為中文,我們可以發現過去基於GAN的方法在同時處理長尾分佈頭部和尾部樣本時存在明顯的問題,修復圖像時會出現過度平滑和細節消失的情況。而基於擴散機率模型(Diffusion Probistic Models, DPM)的方法則能夠更好地擬合長尾分佈,並在擬合真實資料分佈的同時保留尾部特徵

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要進行重寫的內容是:在長尾問題上進行的GAN-based和DPM-based的測試

美圖影像研究院(MT Lab)與中國科學院大學的研究者合作提出了一種新的盲人臉影像修復方法DiffBFR,該方法基於DPM技術,成功實現了盲人臉影像的恢復,將低品質(LQ)的人臉影像修復為高品質(HQ)的清晰圖像

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要重新寫作的內容是:論文連結:https://arxiv.org/abs/2305.04517

這項研究探索了生成對抗網路(GAN)和深度部分模型(DPM)兩種生成式模型在處理長尾問題時的適應性。透過設計適當的人臉修復模組,可以獲得更準確的細節訊息,從而減少生成式方法中可能出現的臉部過度平滑現象,提高修復的精確度和準確性。研究論文已被ACM MM 2023 接收

基於DPM 的盲臉影像修復方法- DiffBFR

研究發現,擴散模型在避免訓練模式崩潰和擬合產生長尾分佈方面優於GAN 方法。因此,DiffBFR選擇利用擴散機率模型來增強人臉先驗資訊的嵌入,並以此為基本框架選擇DPM作為解決方案。這是因為擴散模型具有在任意分佈範圍內產生高品質影像的強大能力

為了解決論文中發現的人臉資料集上的特徵長尾分佈以及過去基於GAN 方法的過平滑問題,該研究探討了合理的設計來更好地擬合近似長尾分佈,並克服修復過程中的過平滑問題。透過在MNIST 資料集上進行了相同參數大小的GAN 和DPM 的簡單實驗(如圖1),研究發現DPM 方法能夠合理地擬合長尾分佈,而GAN 則過度關注頭部特徵而忽略尾部特徵,導致尾部特徵無法生成。因此,選擇 DPM 作為 BFR 的一種解決方案

透過引入兩個中間變量,DiffBFR 提出了兩個特定的修復模組。設計採用兩階段的方式,首先從LQ影像中恢復身份訊息,然後根據真實人臉的分佈增強紋理細節。這個設計由兩個關鍵部分組成:

(1)身分恢復模組(Identity Restoration Module, IRM):

這個模組的目的是保留結果中的人臉細節。同時,提出了一種截斷取樣方法,透過向低品質影像中加入部分噪聲,取代了在反向過程中使用純高斯隨機分佈去噪的方法。論文從理論上證明了這種變化縮小了DPM的理論證據下界(ELBO),從而恢復了更多原始細節。基於理論證明,引入了兩個級聯條件擴散模型,這些模型具有不同的輸入大小,以增強取樣效果,並降低直接產生高解析度影像的訓練難度。同時進一步證明,條件輸入的品質越高,越接近真實資料分佈,恢復的影像越準確。這也是DiffBFR首先恢復低解析度影像的原因

(2)紋理增強模組(Texture Enhancement Module, TEM):

#

用於紋理打磨影像的方法是引入一個無條件擴散模型。這個模型與低品質影像完全無關,進一步使得恢復的結果更接近真實影像資料。論文從理論上證明了在純高品質影像上訓練的無條件擴散模型有助於在像素級空間中輸出影像的正確分佈。也就是說,使用這個模型後,修復影像的分佈的 FID 比使用之前的 FID 更低,整體上與高品質影像的分佈更相似。具體來說,就是透過時間步長截斷採樣來保留身份信息,並對像素級紋理進行打磨

DiffBFR的採樣推理步驟如圖2所示,採樣推理過程示意圖如圖3所示

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要進行改寫的內容是:圖2展示了DiffBFR方法的取樣推理步驟

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要進行改寫的內容是:圖3 展示了DiffBFR 方法的取樣推理過程示意圖

為了不改變原始意義,需要將實驗結果重寫為中文

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

比較了基於GAN的BFR方法和基於DPM的方法的視覺化效果,如圖4所示

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

對於圖5,對於BFR 的SOTA 方法的性能進行了比較

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

##BFR方法的視覺化效果比較如圖6所示

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

在模型中,我們可以透過視覺化來比較IRM和TEM的效能

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

在模型中,對IRM和TEM進行了效能比較,如圖8所示

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要進行改寫的內容是:比較不同參數下的圖9的IRM效能

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

#對於圖10,我們需要比較不同參數的效能

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

#需要重新寫的內容是:圖11顯示了DiffBFR各個模組的參數設定

總結是將訊息或觀點以簡潔明了的方式重新表達的過程。它不改變原始意思,而是透過使用不同的詞彙和句子結構來呈現相同的思想。總結的目的是提供更清晰、更簡潔的表達方式,使讀者更容易理解和消化所傳達的訊息。總結在各種場合都有用處,無論是在學術論文中、商業報告中或日常交流中,都可以透過總結來傳達重要的觀點和結論。總之,總結是一種重要的溝通工具,能夠幫助我們更有效地傳達和理解訊息

本論文提出了一種基於擴散模型的盲退化人臉圖像恢復模型DiffBFR,以解決以往基於GAN方法的訓練模式崩潰和長尾消失問題。透過將先驗知識嵌入到擴散模型中,能夠從隨機嚴重退化的人臉影像中產生高品質、清晰的恢復影像。具體來說,本研究提出了IRM和TEM兩個模組,分別用於恢復真實感和細節還原。透過理論推導和實驗圖像演示,證明了該模型的優越性,並與現有的最先進方法進行了定性和定量比較

需要重寫的內容是:研究團隊

這篇論文是由美圖影像研究院(MT Lab)和中國科學院大學的研究者們共同提出的。美圖影像研究院(MT Lab)成立於2010年,是美圖公司專注於電腦視覺、深度學習、擴增實境等領域演算法研究、工程開發和產品化落地的團隊。自成立以來,該團隊一直致力於電腦視覺領域的探索研究,並於2013年開始佈局深度學習,為美圖旗下的軟硬體產品提供技術支援。同時,他們也為影像產業內的多個垂直領域提供針對性的SaaS服務,透過前沿的影像技術推動美圖的人工智慧產品生態發展。他們曾參與CVPR、ICCV、ECCV等國際頂尖賽事,並獲得了十餘項冠軍和亞軍,發表了超過48篇國際頂尖學術會議論文。美圖影像研究院(MT Lab)長期致力於影像領域的研發,已經累積了豐富的技術儲備,在圖片、影片、設計和數位人領域具有豐富的技術落地經驗

以上是ACM MM 2023 | DiffBFR: 美圖&國科大聯合提出的噪音抑制人臉修復方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除