ホームページ > 記事 > テクノロジー周辺機器 > なぜ猫なのか? Explainable AI は CNN の認識メカニズムを意味レベルから理解します
CNNはその優れた性能から、近年、コンピュータビジョンや自然言語処理などのさまざまな分野の研究者に愛用されています。しかし、CNN は「ブラック ボックス」モデルです。つまり、モデルの学習内容や意思決定プロセスを人間が理解できる方法で抽出して表現することが難しいため、予測の信頼性や実用化には限界があります。したがって、CNN の解釈可能性はますます注目を集めており、研究者は、特徴の視覚化、ネットワーク診断、ネットワーク アーキテクチャの調整を使用して CNN の学習メカニズムの説明を支援し、それによってこの「ブラック ボックス」を透明化しようとしています。人間は意思決定プロセスを理解し、検出し、改善することができます。
最近、北京大学、東方工科大学、南方科学技術大学、彭城研究所などの研究チームが、意味論的に解釈可能な人工知能を提案しました。 (セマンティック 説明可能な AI (S-XAI) の研究フレームワーク は、CNN の学習メカニズムをセマンティック レベルから説明し、猫と犬の二項分類問題を例として、モデルが猫をどのように学習するかを鮮やかに明らかにします。カテゴリー的には「猫とは何か」という概念。
この研究は、CNN が同じカテゴリのサンプルから学習した 共通の特徴 に焦点を当て、人間が理解できる意味概念を抽出し、CNN レベルの説明の意味論を提供します。 。これに基づいて、この研究ではまず、サンプル内の意味要素の出現確率を特徴付けるために「意味確率」という概念を提案しました。実験の結果、S-XAI はバイナリ分類タスクと多分類タスクの両方で、共通の特徴と抽象的で超現実的だが識別可能な意味論的概念をうまく抽出できることが示されており、信頼性評価や意味論的サンプル検索において幅広い応用が期待されています。
この研究は「畳み込みニューラルネットワークの意味解釈:何が猫を猫にするのか?」というタイトルで、2022年10月10日に「Advanced Science」に掲載されました。
紙のリンク: https://onlinelibrary.wiley.com/doi/10.1002/advs.202204723
コードリンク: https://github.com/woshixuhao/semantic-explainable-AI
モデル効果これまでの単一サンプルの可視化研究とは異なり、S-XAI はグループサンプルの 共通の特徴 を抽出して可視化することで、 グローバルな解釈可能性。 S-XAI は、さらに抽象化された意味空間と計算された意味確率に基づいて、CNN の意思決定ロジックに対する人間が理解できる意味説明を自動的に生成し、意味レベルから意思決定の信頼性を評価できます。
図 1 に示すように、猫と犬の分類問題では、同じ猫を 3 つの角度から撮影した写真に対して、S-XAI が対応する意味論的確率レーダー マップを自動的に生成し、そのマップを説明します。声明。ニューラル ネットワークはすべて、これらの写真を 90% 以上の確率で猫として識別しましたが、S-XAI は、これらの写真間の違いを反映して、意味論的な確率からより多くの解釈情報を提供しました。たとえば、正面画像の場合、S-XAI 氏の説明は「私はこれが猫であると確信しています。主に、明らかに猫の目と鼻である鮮やかな目と鼻を持っているからです。同時に、生き生きとした足を持っており、これは猫の足のようです。」 この説明は、高い信頼性を示しています。横からの画像については、S-XAIの説明は「主に目があるのでおそらく猫です。猫の目かもしれませんが、足が少しわかりにくいです。」猫の後ろからの画像については、いずれもありません意味確率は明白であり、S-XAI の解釈は「猫かもしれないが、よくわかりません。」一方、犬の写真の場合、S-XAI の解釈は「猫であることは確かです」となります。 「犬です。主に、明らかに犬のものである生き生きとした目と鼻を持っているからです。ただし、足は少し分かりにくいですが。」
実際、犬の上部は体が覆われて足だけが見えるため、人間でも猫なのか犬なのか見分けるのが難しい。 S-XAI によって提供される意味論的な説明はより正確で人間の認識と一致しており、人間がニューラル ネットワークのカテゴリ認識ロジックを意味論的レベルからよりよく理解できるようになっていることがわかります。
#図 1. S-XAI によって自動生成された意味論的確率レーダー チャートと説明ステートメント
##同時に、S-XAI にはセマンティック サンプル検索における幅広い応用の可能性もあります。図 2 に示すように、多数の画像から特定の意味的特徴を持つ画像をフィルタリングする必要がある場合、S-XAI は意味的確率を通じてフィルタリングする高速かつ正確な方法を提供します。意味確率の計算にはニューラル ネットワークの順方向操作 (つまり、予測) のみが含まれることを考慮すると、このプロセスは非常に高速です。
#図 2. セマンティック サンプル検索の例
##この研究で、研究者らは、S-XAI が複数分類タスクで優れたスケーラビリティを備えていることも証明しました。図 3 に示すように、Mini-ImageNet データ セット (100 の動物カテゴリを含む) を例にとると、S-XAI はさまざまなカテゴリのデータ (鳥、ヘビ、カニ、魚など) から明確に識別可能な画像を抽出できます。 ) 共通の特徴と意味空間、および対応する意味論的な説明を生成します。
# 図 3. 複数分類タスクにおける S-XAI のパフォーマンス。
原則と方法 現在、モデルの解釈可能性を向上させるための一般的なアイデアは、主に視覚化とモデル介入の 2 つのカテゴリに分類されます。視覚化手法では、CNN 内の特徴マップ、フィルター、またはヒート マップを視覚化し、特定のサンプルに直面するときにネットワークが注目する特徴を理解します。この方法の制限は、局所的な解釈可能性を得るために単一のサンプルから個々の特徴を抽出することしかできず、同じ種類のデータに直面した場合にモデルの全体的な意思決定ロジックを理解するのに役立つことができないことです。モデル介入法は、いくつかの既存の高度に解釈可能なモデル (ツリー モデルなど) をニューラル ネットワークのアーキテクチャに統合して、モデルの解釈可能性を向上させます。このタイプの方法にはグローバルな解釈が可能であるという利点がありますが、多くの場合モデルの再トレーニングが必要となり、解釈コストが高くなり、一般化や応用には役立ちません。
人間の認知モデルに触発された S-XAI では、研究者らはセマンティック レベルのカテゴリー学習メカニズム (図 4) から CNN を説明するための新しい説明戦略を採用しました。自然界では、同じタイプの物体は、特定の類似した共通の特徴を持っていることがよくあり、それがカテゴリ認識の重要な基礎を形成します。たとえば、猫はさまざまな形をしていますが、いくつかの共通の特徴 (ひげ、鼻、目関連の特徴など) を共有しているため、人間は猫を猫であるとすぐに識別できます。研究者らは実験で、CNNのカテゴリー学習メカニズムが人間と似ていることを発見した。
#図 4. 意味解釈可能な人工知能研究フレームワーク
行中心サンプル圧縮 と呼ばれるテクノロジーが、CNN が学習した共通特徴から同じカテゴリのサンプルを抽出するためにこの研究で使用されました。従来の主成分分析とは異なり、行中心サンプル圧縮は、サンプル空間内の CNN の多数のサンプルによって取得された特徴マップの次元を削減し、それによって少数の主成分を CNN によって学習された共通の特徴として抽出します。抽出された共通の特徴をより明確にするために、サンプルはスーパーピクセルのセグメンテーションと遺伝的アルゴリズムを通じて干渉を低減する最適なスーパーピクセルの組み合わせを見つけました。抽出された共通特徴は視覚的に表示されます (図 5)。
図 5. 共通特徴の抽出パス VGG-19 ネットワーク アーキテクチャにおける猫と犬の分類問題を例に挙げると、猫の場合 犬と犬のカテゴリ データから抽出されたさまざまな主成分を図 6 に示します。この図から、異なる主成分が異なるレベルで識別可能な特徴を示すことが明確にわかります。第一主成分は完全な顔の特徴を示し、第二主成分はひげ、目、鼻などの散在する意味概念を示し、第三主成分は主に毛皮の特徴を示すことが明らかです。これらの主成分が示す特性は超自然的であること、つまり、どのサンプルにも属さず、同じカテゴリのすべてのサンプルに共通する特性を反映していることは言及する価値があります。 #図 6. 猫と犬のカテゴリ データから抽出されたさまざまな主成分の視覚化結果 抽出された共通特徴に基づいて、研究者らはサンプル内の意味情報をマスクし、主成分の変化を比較して、混合された意味概念をさらに分離し、各意味概念に対応する意味ベクトルを抽出し、抽象化しました。意味空間。ここで研究者らは、目や鼻などの人間が理解できる意味論的概念を使用し、抽象化された意味論的空間を視覚化しました。意味空間の抽出に成功した後、研究者らはサンプル内の意味要素の出現確率を特徴付ける「意味確率」の概念を定義し、CNNの意味レベルの説明に定量的な分析手法を提供した。 図 7 に示すように、明確に識別可能な意味概念 (明るい目、小さな鼻) が意味空間に表示されます。これは、意味空間が CNN から正常に抽出されたことを示しています。 CNN がカテゴリデータから学習した意味情報を示します。同時に、研究者らは、CNN のセマンティクスの理解が人間の理解とは多少異なることを発見しました。CNN が学習する「セマンティクス」は、必ずしも人間によって合意された「セマンティクス」ではありません。ニューラル ネットワークのセマンティクスは、もっと効率的。たとえば、研究者らは、猫の場合、CNN が猫の鼻とひげを全体的な意味論として扱うことが多く、より効果的である可能性があることを発見しました。同時に、CNN はセマンティクス間の関連性についても学習しました。たとえば、猫の目と鼻は同時に現れることがよくあります。この点については、さらに詳細な研究が必要です。 # 図 7. CNN から抽出された意味ベクトルと視覚化された意味空間 (上: 猫の目の空間、下: 猫の鼻の空間)#要約と展望 本質的に、S-XAI は知識の発見に似ています。知識発見は、ニューラル ネットワークから共通の物理法則を反映する関数項を見つけることを目的とし、S-XAI は、CNN からサンプルの共通の特性を反映する意味空間を見つけることを目的としています。両方の中心的なアイデアは、共通点を見つけてそれらを表現することです。人間に理解できるようにすることが可能であることについて。
以上がなぜ猫なのか? Explainable AI は CNN の認識メカニズムを意味レベルから理解しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。