搜尋
首頁科技週邊人工智慧影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

影像修復是指對影像缺失區域進行補全,是電腦視覺的基本任務之一。該方向有許多實際應用,例如物體移除、影像重定向、影像合成等。

早期的修復方法是基於影像區塊合成或顏色擴散來填滿影像缺失部分。為了完成更複雜的影像結構,研究人員開始轉向數據驅動的方案,他們利用深度生成網路來預測視覺內容和外觀。透過在大量影像上進行訓練,並藉助重建和對抗損失,生成式修復模型已被證明可以在包括自然影像和臉部在內的各種類型輸入資料上產生更具視覺吸引力的結果。

然而,現有工作只能在完成簡單的圖像結構方面顯示出良好的結果,生成整體結構複雜和細節高保真的圖像內容仍然是一個巨大的挑戰,特別是當影像空洞(hole)很大的時候。

從本質上講,影像修復面臨兩個關鍵問題:一個是如何將全局上下文準確地傳播到不完整區域,另一個是合成與全局線索一致的真實局部細節。為了解決全域情境傳播問題,現有網路利用編碼器 - 解碼器結構、空洞卷積、脈絡注意力或傅立葉卷積來整合長程特徵依賴,擴大有效感受野。此外,兩階段方法和迭代空洞填充依靠預測粗略結果來增強全局結構。然而,這些模型缺乏一種機制來捕獲未遮罩區域的高級語義,並有效地將它們傳播到空洞中以合成一個整體的全局結構。

基於此,來自羅徹斯特大學和Adobe Research 的研究者提出了一種新的生成網絡:CM-GAN(cascaded modulation GAN),該網絡可以更好地合成整體結構和局部細節。 CM-GAN 中包含一個帶有傅立葉卷積塊的編碼器,用於從帶有空洞的輸入影像中提取多尺度特徵表徵。 CM-GAN 中還有一個雙流解碼器,該解碼器在每個尺度層都設定一個新型級聯的全域空間調變區塊。

在每個解碼器區塊中,研究者首先應用全域調變來執行粗略和語意感知的結構合成,然後進行空間調變來進一步以空間自適應方式調整特徵圖。此外,研究設計了一種物體感知訓練方案,以防止空洞內產生偽影,從而滿足現實場景中物體移除任務的需求。該研究進行了廣泛的實驗表明,CM-GAN 在定量和定性評估方面都顯著優於現有方法。

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

  • 論文網址:https://arxiv.org/pdf/2203.11947.pdf
  • #專案位址:https://github.com/htzheng/CM-GAN-Inpainting

#我們先來看看圖片修復效果,與其他方法相比, CM-GAN 可以重建更好的紋理:

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

#CM-GAN 可以合成更好的全域結構:

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

CM-GAN 具有更好的物件邊界:

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

下面我們來看下該研究的方法和實驗結果。

方法

級聯調變 GAN

為了更好地建模影像補全的全域上下文,該研究提出一種將全域碼調變與空間碼調變級聯的新機制。此機制有助於處理部分無效的特徵,同時更好地將全域上下文注入空間域內。新架構 CM-GAN 可以很好地綜合整體結構和局部細節,如下圖 1 所示。

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

如下圖2(左) 所示,CM-GAN 是基於一個編碼器分支和兩個並行級聯解碼器分支來產生視覺輸出。編碼器以部分影像和遮罩為輸入,產生多尺度特徵圖影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

與大多數編碼器- 解碼器方法不同,為了完成整體結構,該研究從全連接層的最高級別特徵影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節中提取全局樣式代碼s,然後進行影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節歸一化。此外,基於 MLP 的映射網路會從雜訊中產生樣式代碼 w,以模擬影像產生的隨機性。代碼 w 與 s 結合產生一個全域代碼 g = [s; w],用於之後的解碼步驟。

全域空間級聯調變。為了在解碼階段更好地連接全局上下文,研究提出了全局空間級聯調製 (CM,cascaded modulation)。如圖 2(右)所示,解碼階段是基於全域調變區塊(GB)和空間調變區塊(SB)兩個分支,並行上取樣全域特徵 F_g 和局部特徵 F_s。

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

 與現有方法不同,CM-GAN 引進了一種將全域情境注入空洞區域的新方法。在概念層面上,它由每個尺度的特徵之間的級聯全局和空間調製組成,並且自然地集成了全局上下文建模的三種補償機制:1)特徵上採樣;2) 全局調製;3 )空間調製。

 物體感知訓練

為訓練產生遮罩的演算法至關重要。本質上,採樣的遮罩應該類似於在實際用例中繪製的遮罩,並且遮罩應避免覆蓋整個物體或任何新物體的大部分。過度簡化的遮罩方案可能會導致偽影。

為了更好地支援真實的物體移除用例,同時防止模型在空洞內合成新物體,該研究提出了一種物體感知訓練方案,在訓練期間生成了更真實的掩碼,如下圖4 所示。

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

具體來說,研究首先將訓練影像傳遞給全景分割網路PanopticFCN 以產生高度準確的實例級分割註釋,然後對自由空洞和物體空洞的混合進行採樣作為初始掩碼,最後計算空洞和圖像中每個實例之間的重疊率。如果重疊率大於閾值,則該方法將前景實例從空洞中排除;否則,空洞不變並模擬物體完成,其中閾值設為 0.5。研究隨機擴展和平移物體遮罩以避免過度擬合。此外,該研究還擴大了實例分割邊界上的空洞,以避免將空洞附近的背景像素洩漏到修復區域。

訓練目標與 Masked-R_1 正則化

該模型結合對抗性損失和基於分割的感知損失進行訓練。實驗表明,該方法在純粹使用對抗性損失時也能取得很好的效果,但加入感知損失可以進一步提高性能。

#

此外,該研究還提出了一種專門用於穩定修復任務的對抗性訓練的 masked-R_1 正則化,其中利用掩碼 m 來避免計算掩碼外的梯度懲罰。

實驗

該研究在Places2 資料集上以512 × 512 解析度進行了影像修復實驗,並給出了模型的定量和定性評估結果。

定量評估:下表 1 為 CM-GAN 與其他遮罩方法的比較。結果表明,CM-GAN 在 FID、LPIPS、U-IDS 和 P-IDS 方面明顯優於其他方法。在感知損失的幫助下,LaMa、CM-GAN 比 CoModGAN 和其他方法獲得了明顯更好的 LPIPS 分數,這歸功於預訓練感知模型提供的額外語義指導。與 LaMa/CoModGAN 相比,CM-GAN 將 FID 從 3.864/3.724 降低到 1.628。

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

如下表3 所示,在有無微調的情況下,CM-GAN 在LaMa 和CoModGAN 掩碼上都取得了明顯優於LaMa 和CoModGAN 的性能增益,表明該模型具有泛化能力。值得注意的是,在 CoModGAN 掩碼,物體感知掩碼上訓練的 CM-GAN 性能依然優於 CoModGAN 掩碼,證實了 CM-GAN 具有更好的生成能力。

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

定性評估:圖5、圖6、圖8 展示了CM-GAN 與SOTA 方法在合成掩碼方面的可視化比較結果。 ProFill 能夠產生不連貫的全域結構,CoModGAN 產生結構偽影和色彩斑點,LaMa 在自然場景上容易產生較大的影像模糊。相較之下,CM-GAN 方法產生了更連貫的語義結構、紋理更清晰,可適用於不同場景。

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

為了驗證模型中每個組件的重要性,研究進行了一組消融實驗,所有模型都在Places2 資料集上進行訓練和評估。消融實驗結果如下表 2 及圖 7 所示。

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

#該研究也進行了使用者研究,以更好地評估CM-GAN 方法的視覺生成質量,結果如下表5 所示。此外,附錄提供了更多的視覺比較和實驗分析以供讀者參考。

影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節

###########

以上是影像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全域結構與紋理細節的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。