首頁  >  文章  >  科技週邊  >  傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

王林
王林轉載
2023-04-08 14:21:101205瀏覽

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

  • 論文網址:https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
  • 作者單位:中國科學院計算技術研究所、上海交通大學、之江實驗室

研究背景及研究任務

生成對抗網路( GAN)已經在生成高解析度影像方面取得了巨大成功,而關於其可解釋性的研究也在近年來引起了廣泛關注。

在這一領域,如何令 GAN 學習出一個解耦的表徵仍是一項重大挑戰。所謂 GAN 的解耦表徵,即該表徵每個部分只影響生成圖像的特定方面。先前關於 GAN 解耦表徵的研究關注於不同的角度。

例如,在下圖 1 中,方法 1 解耦了圖像的結構和風格。方法 2 學習了影像中局部物件的特徵。方法 3 學習了圖像中屬性的解耦特徵,例如人臉圖像的年齡屬性和性別屬性。然而,這些研究未能在 GAN 中為不同的視覺概念(例如人臉的眼睛、鼻子和嘴巴等部分)提供一個清晰且符號化的表徵。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#圖1:與其他GAN 解耦表徵方法的​​視覺對比

為此,研究者提出了一種將傳統GAN 修改為可解釋GAN 的通用方法,該方法確保生成器中間層中的捲積核可以學習到解耦的局部視覺概念。具體地,如下圖2 所示,與傳統GAN 相比,可解釋GAN 中間層中的每個卷積核在生成不同圖像時始終代表一個特定的視覺概念,不同的捲積核則代表不同的視覺概念。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

圖2:可解釋GAN 與傳統GAN 編碼表徵的視覺對比

#建模方法

可解釋GAN 的學習應滿足以下兩個目標:卷積核的可解釋性產生圖像的真實性

  • 卷積核的可解釋性:研究者希望中間層的捲積核能夠自動學習有意義的視覺概念,而無需對任何視覺概念進行人工標註。具體來說,每個卷積核在生成不同影像時都應該穩定地產生對應於相同視覺概念的影像區域。不同的捲積核則應該產生對應於不同視覺概念的影像區域;
  • 產生影像的真實性:可解釋 GAN 的生成器仍能產生逼真的影像。

為了確保目標層中卷積核的可解釋性,研究者註意到當多個卷積核產生與某個視覺概念對應的相似區域時,它們通常聯合代表了這個視覺概念。

因此,他們使用一組卷積核來共同表示一個特定的視覺概念,並使用不同組的捲積核來分別表示不同的視覺概念。

為了同時確保生成影像的真實性,研究者設計下述損失函數來將傳統的 GAN 修改為可解釋的 GAN。 

#
  • 傳統GAN 的損失#:此損失用於確保產生影像的真實性;
  • #卷積核分割損失:給定產生器,該損失用於找到卷積核的分割方式,使得同一組中的捲積核產生相似的影像區域。具體地,他們使用高斯混合模型(GMM) 來學習卷積核的劃分方式,以確保每組中卷積核的特徵圖具有相似的神經激活;
  • ##能量模型真實性損失:給定目標層卷積核的劃分方式,強制同一組中的每個卷積核生成相同的視覺概念可能會降低生成圖像的質量。為了進一步確保生成影像的真實性,他們使用能量模型來輸出目標層中特徵圖的真實性機率,並採用極大似然估計來學習能量模型的參數;
  • 卷積核可解釋性損失:給定目標層的捲積核分割方式,此損失用於進一步提升卷積核的可解釋性。具體地,該損失會使得同一組中的每個卷積核唯一地產生相同的影像區域,而不同組的捲積核則分別負責產生不同的影像區域。
實驗結果

在實驗中,研究者分別定性和定量地評估了他們的可解釋 GAN。

對於定性分析,他們將每個卷積核的特徵圖視覺化,以評估卷積核在不同影像上所所表示的視覺概念的一致性。如下圖 3 所示,在可解釋 GAN 中,每個卷積核在生成不同影像時始終會產生對應於相同視覺概念的影像區域,而不同的捲積核生成對應於不同視覺概念的影像區域。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#圖3:可解釋GAN 中特徵圖的視覺化

實驗中也比較了每組卷積核的組別中心和卷積核之間的感受野的區別,如下圖4(a)所示。圖 4(b)給出了可解釋 GAN 中不同視覺概念對應卷積核的數目比例。圖 4(c)則表示,當選擇劃分的捲積核組數不同時,組數越多的可解釋 GAN 學習到的視覺概念越詳盡。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

圖4:可解釋GAN 的定性評估

可解釋GAN 也支援修改生成影像上特定的視覺概念。例如,可以透過交換可解釋層中相應的特徵圖,來實現圖像之間特定視覺概念的交互,即完成局部 / 全局換臉。

下圖 5 給出了在成對影像之間交換嘴、頭髮和鼻子的結果。最後一列給出了修改後的圖像和原始圖像之間的差異。此結果表明,研究者的方法只修改了局部的視覺概念,而沒有改變其他不相關的區域。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#圖5:交換產生圖片的特定視覺概念

#此外,下圖6 也給了他們的#方法在交換整張人臉時的效果# 。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性#

圖6:交換產生圖片的整張臉人臉

#對於定量分析,研究者採用人臉驗證實驗來評估人臉交換結果的準確性。具體而言,給定一對人臉圖像,將原始圖像的人臉替換為來源圖像的人臉以產生修改後的圖像。然後,測試修改後影像的人臉和來源影像的人臉是否具有相同的身份。

下表1 給出了不同方法人臉驗證結果的準確性,他們的方法在身份保持方面優於其他的臉部交換方法。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#表1:換臉身分的準確度評估

#此外,實驗中也評估了方法在修改特定視覺概念時的局部性。具體來說,研究者計算了RGB 空間中原始影像和修改後影像之間的均方誤差(MSE),並以特定視覺概念的區域外MSE 和區域內MSE 的比值,作為局部性評估的實驗指標。

結果如下表2 所示,研究者的修改方法具有更好的局部性,即所修改視覺概念以外的圖片區域變化較少。

傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性

#表2:修改視覺概念的局部性評估

#更多的實驗結果參考論文。

總結

本工作提出了一種通用方法,可以在無需任何視覺概念的人工標註下,將傳統的 GAN 修改為可解釋的 GAN。在可解釋的 GAN 中,生成器中間層中的每個卷積核在生成不同影像時可以穩定地產生相同的視覺概念。

實驗表明,可解釋 GAN 也使得人們能夠在生成的圖像上修改特定的視覺概念,為 GAN 生成圖像的可控編輯方法提供了一個新的角度。

以上是傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除