搜尋
首頁科技週邊人工智慧傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

  • 論文網址:https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
  • 作者單位:中國科學院計算技術研究所、上海交通大學、之江實驗室

研究背景及研究任務

生成對抗網路( GAN)已經在生成高解析度影像方面取得了巨大成功,而關於其可解釋性的研究也在近年來引起了廣泛關注。

在這一領域,如何令 GAN 學習出一個解耦的表徵仍是一項重大挑戰。所謂 GAN 的解耦表徵,即該表徵每個部分只影響生成圖像的特定方面。先前關於 GAN 解耦表徵的研究關注於不同的角度。

例如,在下圖 1 中,方法 1 解耦了圖像的結構和風格。方法 2 學習了影像中局部物件的特徵。方法 3 學習了圖像中屬性的解耦特徵,例如人臉圖像的年齡屬性和性別屬性。然而,這些研究未能在 GAN 中為不同的視覺概念(例如人臉的眼睛、鼻子和嘴巴等部分)提供一個清晰且符號化的表徵。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#圖1:與其他GAN 解耦表徵方法的​​視覺對比

為此,研究者提出了一種將傳統GAN 修改為可解釋GAN 的通用方法,該方法確保生成器中間層中的捲積核可以學習到解耦的局部視覺概念。具體地,如下圖2 所示,與傳統GAN 相比,可解釋GAN 中間層中的每個卷積核在生成不同圖像時始終代表一個特定的視覺概念,不同的捲積核則代表不同的視覺概念。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

圖2:可解釋GAN 與傳統GAN 編碼表徵的視覺對比

#建模方法

可解釋GAN 的學習應滿足以下兩個目標:卷積核的可解釋性產生圖像的真實性

  • 卷積核的可解釋性:研究者希望中間層的捲積核能夠自動學習有意義的視覺概念,而無需對任何視覺概念進行人工標註。具體來說,每個卷積核在生成不同影像時都應該穩定地產生對應於相同視覺概念的影像區域。不同的捲積核則應該產生對應於不同視覺概念的影像區域;
  • 產生影像的真實性:可解釋 GAN 的生成器仍能產生逼真的影像。

為了確保目標層中卷積核的可解釋性,研究者註意到當多個卷積核產生與某個視覺概念對應的相似區域時,它們通常聯合代表了這個視覺概念。

因此,他們使用一組卷積核來共同表示一個特定的視覺概念,並使用不同組的捲積核來分別表示不同的視覺概念。

為了同時確保生成影像的真實性,研究者設計下述損失函數來將傳統的 GAN 修改為可解釋的 GAN。 

#
  • 傳統GAN 的損失#:此損失用於確保產生影像的真實性;
  • #卷積核分割損失:給定產生器,該損失用於找到卷積核的分割方式,使得同一組中的捲積核產生相似的影像區域。具體地,他們使用高斯混合模型(GMM) 來學習卷積核的劃分方式,以確保每組中卷積核的特徵圖具有相似的神經激活;
  • ##能量模型真實性損失:給定目標層卷積核的劃分方式,強制同一組中的每個卷積核生成相同的視覺概念可能會降低生成圖像的質量。為了進一步確保生成影像的真實性,他們使用能量模型來輸出目標層中特徵圖的真實性機率,並採用極大似然估計來學習能量模型的參數;
  • 卷積核可解釋性損失:給定目標層的捲積核分割方式,此損失用於進一步提升卷積核的可解釋性。具體地,該損失會使得同一組中的每個卷積核唯一地產生相同的影像區域,而不同組的捲積核則分別負責產生不同的影像區域。
實驗結果

在實驗中,研究者分別定性和定量地評估了他們的可解釋 GAN。

對於定性分析,他們將每個卷積核的特徵圖視覺化,以評估卷積核在不同影像上所所表示的視覺概念的一致性。如下圖 3 所示,在可解釋 GAN 中,每個卷積核在生成不同影像時始終會產生對應於相同視覺概念的影像區域,而不同的捲積核生成對應於不同視覺概念的影像區域。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#圖3:可解釋GAN 中特徵圖的視覺化

實驗中也比較了每組卷積核的組別中心和卷積核之間的感受野的區別,如下圖4(a)所示。圖 4(b)給出了可解釋 GAN 中不同視覺概念對應卷積核的數目比例。圖 4(c)則表示,當選擇劃分的捲積核組數不同時,組數越多的可解釋 GAN 學習到的視覺概念越詳盡。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

圖4:可解釋GAN 的定性評估

可解釋GAN 也支援修改生成影像上特定的視覺概念。例如,可以透過交換可解釋層中相應的特徵圖,來實現圖像之間特定視覺概念的交互,即完成局部 / 全局換臉。

下圖 5 給出了在成對影像之間交換嘴、頭髮和鼻子的結果。最後一列給出了修改後的圖像和原始圖像之間的差異。此結果表明,研究者的方法只修改了局部的視覺概念,而沒有改變其他不相關的區域。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#圖5:交換產生圖片的特定視覺概念

#此外,下圖6 也給了他們的#方法在交換整張人臉時的效果# 。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性#

圖6:交換產生圖片的整張臉人臉

#對於定量分析,研究者採用人臉驗證實驗來評估人臉交換結果的準確性。具體而言,給定一對人臉圖像,將原始圖像的人臉替換為來源圖像的人臉以產生修改後的圖像。然後,測試修改後影像的人臉和來源影像的人臉是否具有相同的身份。

下表1 給出了不同方法人臉驗證結果的準確性,他們的方法在身份保持方面優於其他的臉部交換方法。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#表1:換臉身分的準確度評估

#此外,實驗中也評估了方法在修改特定視覺概念時的局部性。具體來說,研究者計算了RGB 空間中原始影像和修改後影像之間的均方誤差(MSE),並以特定視覺概念的區域外MSE 和區域內MSE 的比值,作為局部性評估的實驗指標。

結果如下表2 所示,研究者的修改方法具有更好的局部性,即所修改視覺概念以外的圖片區域變化較少。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#表2:修改視覺概念的局部性評估

#更多的實驗結果參考論文。

總結

本工作提出了一種通用方法,可以在無需任何視覺概念的人工標註下,將傳統的 GAN 修改為可解釋的 GAN。在可解釋的 GAN 中,生成器中間層中的每個卷積核在生成不同影像時可以穩定地產生相同的視覺概念。

實驗表明,可解釋 GAN 也使得人們能夠在生成的圖像上修改特定的視覺概念,為 GAN 生成圖像的可控編輯方法提供了一個新的角度。

以上是傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具