ホームページ >テクノロジー周辺機器 >AI >従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。
Generative Adversarialネットワーク (GAN) は高解像度画像の生成に大きな成功を収めており、その解釈可能性に関する研究も近年広く注目を集めています。
この分野では、GAN に分離表現を学習させる方法が依然として大きな課題です。 GAN のいわゆる分離表現は、表現の各部分が生成された画像の特定の側面にのみ影響を与えることを意味します。 GAN の分離表現に関するこれまでの研究は、さまざまな観点に焦点を当てていました。
たとえば、以下の図 1 では、方法 1 は画像の構造とスタイルを分離しています。方法 2 では、画像内のローカル オブジェクトの特徴を学習します。方法 3 では、顔画像の年齢属性や性別属性など、画像内の属性の分離された特徴を学習します。しかし、これらの研究では、さまざまな視覚概念 (目、鼻、口などの顔の部分など) を GAN で明確かつ象徴的に表現することができませんでした。
#図 1: 他の GAN 分離表現方法との視覚的比較
この目的のために、研究者は従来の GAN を解釈可能な GANに変更するための 一般的な方法を提案しました。ジェネレーターの中間層は、分離されたローカルの視覚概念を学習できます。具体的には、以下の図 2 に示すように、従来の GAN と比較して、解釈可能な GAN の中間層の各コンボリューション カーネルは、異なる画像を生成するときに常に特定の視覚的概念を表し、異なるコンボリューション カーネルは異なるビジョンを表します。
図 2: 解釈可能な GAN と従来の GAN エンコーディング表現の視覚的比較 モデリング手法
畳み込みカーネルの解釈可能性および 生成された画像の信頼性。
畳み込みカーネルの解釈可能性: 研究者は、中間層の畳み込みカーネルが視覚的概念に手動で注釈を付けることなく、意味のある視覚的概念を自動的に学習できることを望んでいます。具体的には、各コンボリューションカーネルは、異なる画像を生成するときに、同じ視覚概念に対応する画像領域を安定して生成する必要があります。異なる畳み込みカーネルは、異なる視覚概念に対応する画像領域を生成する必要があります;したがって、コンボリューション カーネルのセットを使用して特定の視覚的概念を共同で表現し、異なるコンボリューション カーネルのセットを使用してそれぞれ異なる視覚的概念を表現します。
生成された画像の信頼性を同時に保証するために、研究者らは、従来の GAN を解釈可能な GAN に変更するために次の損失関数を設計しました。
#図 3: 解釈可能な GAN での機能マップの視覚化
実験では、以下の図 4(a) に示すように、コンボリューション カーネルの各グループのグループ中心とコンボリューション カーネル間の受容野の差も比較されました。図 4(b) は、解釈可能な GAN におけるさまざまな視覚概念に対応するコンボリューション カーネルの数の割合を示しています。図 4(c) は、分割するために選択されたコンボリューション カーネル グループの数が異なる場合、グループが増えるほど、解釈可能な GAN によって学習される視覚的概念がより詳細になることを示しています。
#図 4: 解釈可能な GAN の定性的評価
##解釈可能な GAN
は、生成された画像上の特定の視覚概念の変更もサポートします
。たとえば、画像間の特定の視覚概念の相互作用は、解釈可能なレイヤーで対応する特徴マップを交換することによって実現できます。つまり、ローカル/グローバルの顔の交換が完了します。下の図 5 は、画像のペア間で口、髪、鼻を交換した結果を示しています。最後の列は、変更されたイメージと元のイメージの違いを示します。この結果は、研究者の方法が、他の無関係な領域を変更せずに、局所的な視覚概念のみを変更したことを示しています。
#図 5: 特定の視覚的概念を交換して画像を生成する
さらに、以下の図 6 は、顔全体を交換する場合の
メソッドの効果も示しています。
図 6: 生成された画像の顔全体を交換する
定量分析について、研究者らは顔検証実験を使用して、顔交換結果の精度を評価しました。具体的には、顔画像のペアが与えられると、元の画像の顔がソース画像の顔に置き換えられて、変更された画像が生成されます。次に、変更された画像の顔とソース画像の顔が同じアイデンティティを持つかどうかをテストします。
以下の表 1 は、さまざまな方法による顔認証結果の精度を示しています##。アイデンティティの保持の点で、他の顔交換方法よりも優れています。
#表 1: 顔交換識別の精度評価
さらに、特定の視覚概念を変更する方法の局所性も実験で評価されます。具体的には、研究者らは、RGB 空間における元の画像と変更後の画像の間の平均二乗誤差 (MSE) を計算し、特定の視覚概念の領域外 MSE と領域内 MSE の比を実験として使用しました。地域性評価の指標です。
結果は以下の表 2 に示されています。研究者の修正方法は局所性が優れています、つまり領域です。修正されたビジュアルコンセプト以外の画像の変更は少なくなりました。
#表 2: 変更されたビジュアル コンセプトの局所性評価 #その他の実験結果については、論文を参照してください。
概要
実験では、解釈可能な GAN を使用すると、生成された画像の特定の視覚的概念を変更することもできることが示され、GAN で生成された画像の制御可能な編集方法に新しい視点が提供されます。
以上が従来の GAN は変更後に解釈することができ、コンボリューション カーネルの解釈可能性と生成された画像の信頼性を保証します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。