ホームページ  >  記事  >  テクノロジー周辺機器  >  従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

王林
王林転載
2023-04-08 14:21:101205ブラウズ

従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

  • #論文アドレス: https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
  • ##著者単位: 計算技術研究所、中国科学院、上海交通大学、志江研究所
研究背景と研究課題

Generative Adversarialネットワーク (GAN) は高解像度画像の生成に大きな成功を収めており、その解釈可能性に関する研究も近年広く注目を集めています。

この分野では、GAN に分離表現を学習させる方法が依然として大きな課題です。 GAN のいわゆる分離表現は、表現の各部分が生成された画像の特定の側面にのみ影響を与えることを意味します。 GAN の分離表現に関するこれまでの研究は、さまざまな観点に焦点を当てていました。

たとえば、以下の図 1 では、方法 1 は画像の構造とスタイルを分離しています。方法 2 では、画像内のローカル オブジェクトの特徴を学習します。方法 3 では、顔画像の年齢属性や性別属性など、画像内の属性の分離された特徴を学習します。しかし、これらの研究では、さまざまな視覚概念 (目、鼻、口などの顔の部分など) を GAN で明確かつ象徴的に表現することができませんでした。

従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

#図 1: 他の GAN 分離表現方法との視覚的比較

この目的のために、研究者は従来の GAN を解釈可能な GAN

に変更するための 一般的な方法を提案しました。ジェネレーターの中間層は、分離されたローカルの視覚概念を学習できます。具体的には、以下の図 2 に示すように、従来の GAN と比較して、解釈可能な GAN の中間層の各コンボリューション カーネルは、異なる画像を生成するときに常に特定の視覚的概念を表し、異なるコンボリューション カーネルは異なるビジョンを表します。

従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

図 2: 解釈可能な GAN と従来の GAN エンコーディング表現の視覚的比較 モデリング手法

解釈可能な GAN の学習は、次の 2 つの目標を満たさなければなりません:

畳み込みカーネルの解釈可能性および 生成された画像の信頼性

畳み込みカーネルの解釈可能性: 研究者は、中間層の畳み込みカーネルが視覚的概念に手動で注釈を付けることなく、意味のある視覚的概念を自動的に学習できることを望んでいます。具体的には、各コンボリューションカーネルは、異なる画像を生成するときに、同じ視覚概念に対応する画像領域を安定して生成する必要があります。異なる畳み込みカーネルは、異なる視覚概念に対応する画像領域を生成する必要があります;
  • 生成された画像の信頼性: 解釈可能な GAN ジェネレーターは依然として現実的な画像を生成できます。
  • ターゲット層でのコンボリューション カーネルの解釈可能性を確保するために、研究者らは、複数のコンボリューション カーネルが特定の視覚的概念に対応する同様の領域を生成する場合、このビジュアルコンセプトを共同で表現します。

したがって、コンボリューション カーネルのセットを使用して特定の視覚的概念を共同で表現し、異なるコンボリューション カーネルのセットを使用してそれぞれ異なる視覚的概念を表現します。

生成された画像の信頼性を同時に保証するために、研究者らは、従来の GAN を解釈可能な GAN に変更するために次の損失関数を設計しました。

  • #従来の GAN の損失 #: この損失は、生成されたイメージの信頼性を保証するために使用されます。
  • 畳み込みカーネルの除算損失: ジェネレーターが与えられた場合、この損失は、同じグループ内の畳み込みカーネルが生成するように畳み込みカーネルを分割する方法を見つけるために使用されます。同様の画像領域。具体的には、混合ガウス モデル (GMM) を使用して、各グループの畳み込みカーネルの特徴マップが同様の神経活性化を持つことを保証するために畳み込みカーネルがどのように分割されるかを学習します。 ##エネルギー モデルの信頼性の損失: ターゲット層カーネルがどのように分割されているかを考慮すると、同じグループ内の各カーネルに同じ視覚的コンセプトを生成させると、生成される画像の品質が低下する可能性があります。生成された画像の信頼性をさらに保証するために、エネルギー モデルを使用してターゲット レイヤーの特徴マップの信頼性確率を出力し、最尤推定を使用してエネルギー モデルのパラメーターを学習します。
  • ##コンボリューション カーネルの解釈可能性の損失: ターゲット層のコンボリューション カーネル分割方法を考慮すると、この損失は、コンボリューション カーネルの解釈可能性をさらに向上させるために使用されます。具体的には、この損失により、同じグループ内の各コンボリューション カーネルは同じ画像領域を一意に生成しますが、異なるグループのコンボリューション カーネルは異なる画像領域を生成します。
  • 実験結果
  • 実験では、研究者らは解釈可能な GAN を定性的および定量的に評価しました。
定性分析では、各コンボリューション カーネルの特徴マップを視覚化し、さまざまな画像に対するコンボリューション カーネルのパフォーマンスを評価しました。表現されたビジュアルコンセプト。以下の図 3 に示すように、解釈可能な GAN では、各コンボリューション カーネルは、異なる画像を生成するときに常に同じ視覚概念に対応する画像領域を生成しますが、異なる畳み込みカーネルは、異なる視覚概念に対応する画像領域を生成します。

#図 3: 解釈可能な GAN での機能マップの視覚化

実験では、以下の図 4(a) に示すように、コンボリューション カーネルの各グループのグループ中心とコンボリューション カーネル間の受容野の差も比較されました。図 4(b) は、解釈可能な GAN におけるさまざまな視覚概念に対応するコンボリューション カーネルの数の割合を示しています。図 4(c) は、分割するために選択されたコンボリューション カーネル グループの数が異なる場合、グループが増えるほど、解釈可能な GAN によって学習される視覚的概念がより詳細になることを示しています。 従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

#図 4: 解釈可能な GAN の定性的評価

##解釈可能な GAN

は、生成された画像上の特定の視覚概念の変更もサポートします従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

。たとえば、画像間の特定の視覚概念の相互作用は、解釈可能なレイヤーで対応する特徴マップを交換することによって実現できます。つまり、ローカル/グローバルの顔の交換が完了します。

下の図 5 は、画像のペア間で口、髪、鼻を交換した結果を示しています。最後の列は、変更されたイメージと元のイメージの違いを示します。この結果は、研究者の方法が、他の無関係な領域を変更せずに、局所的な視覚概念のみを変更したことを示しています。

#図 5: 特定の視覚的概念を交換して画像を生成する

さらに、以下の図 6 は、顔全体を交換する場合の

メソッドの効果も示しています。 従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

図 6: 生成された画像の顔全体を交換する

定量分析について、研究者らは顔検証実験を使用して、顔交換結果の精度を評価しました。具体的には、顔画像のペアが与えられると、元の画像の顔がソース画像の顔に置き換えられて、変更された画像が生成されます。次に、変更された画像の顔とソース画像の顔が同じアイデンティティを持つかどうかをテストします。

以下の表 1 は、さまざまな方法による顔認証結果の精度を示しています##。アイデンティティの保持の点で、他の顔交換方法よりも優れています。

従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

#表 1: 顔交換識別の精度評価

さらに、特定の視覚概念を変更する方法の局所性も実験で評価されます。具体的には、研究者らは、RGB 空間における元の画像と変更後の画像の間の平均二乗誤差 (MSE) を計算し、特定の視覚概念の領域外 MSE と領域内 MSE の比を実験として使用しました。地域性評価の指標です。

結果は以下の表 2 に示されています。研究者の修正方法は局所性が優れています、つまり領域です。修正されたビジュアルコンセプト以外の画像の変更は少なくなりました。

従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。

#表 2: 変更されたビジュアル コンセプトの局所性評価 #その他の実験結果については、論文を参照してください。

概要

この研究では、視覚的な概念に手動で注釈を付けることなく、従来の GAN を解釈可能な GAN に変更できる一般的な方法を提案します。解釈可能な GAN では、ジェネレーターの中間層の各コンボリューション カーネルは、異なる画像を生成するときに同じ視覚的コンセプトを安定して生成できます。

実験では、解釈可能な GAN を使用すると、生成された画像の特定の視覚的概念を変更することもできることが示され、GAN で生成された画像の制御可能な編集方法に新しい視点が提供されます。

以上が従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。