なぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解します-AI-php.cn

ホームページ

テクノロジー周辺機器

なぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解します

王林

Apr 09, 2023 pm 11:11 PM

AI研究

CNNはその優れた性能から、近年、コンピュータビジョンや自然言語処理などのさまざまな分野の研究者に愛用されています。しかし、CNN は「ブラックボックス」モデルです。つまり、モデルの学習内容や意思決定プロセスを人間が理解できる方法で抽出して表現することが難しいため、予測の信頼性や実用化には限界があります。したがって、CNN の解釈可能性はますます注目を集めており、研究者は、特徴の視覚化、ネットワーク診断、ネットワークアーキテクチャの調整を使用して CNN の学習メカニズムの説明を支援し、それによってこの「ブラックボックス」を透明化しようとしています。人間は意思決定プロセスを理解し、検出し、改善することができます。

最近、北京大学、東方工科大学、南方科学技術大学、彭城研究所などの研究チームが、意味論的に解釈可能な人工知能を提案しました。 (セマンティック説明可能な AI (S-XAI) の研究フレームワークは、CNN の学習メカニズムをセマンティックレベルから説明し、猫と犬の二項分類問題を例として、モデルが猫をどのように学習するかを鮮やかに明らかにします。カテゴリー的には「猫とは何か」という概念。

この研究は、CNN が同じカテゴリのサンプルから学習した共通の特徴に焦点を当て、人間が理解できる意味概念を抽出し、CNN レベルの説明の意味論を提供します。。これに基づいて、この研究ではまず、サンプル内の意味要素の出現確率を特徴付けるために「意味確率」という概念を提案しました。実験の結果、S-XAI はバイナリ分類タスクと多分類タスクの両方で、共通の特徴と抽象的で超現実的だが識別可能な意味論的概念をうまく抽出できることが示されており、信頼性評価や意味論的サンプル検索において幅広い応用が期待されています。

この研究は「畳み込みニューラルネットワークの意味解釈:何が猫を猫にするのか?」というタイトルで、2022年10月10日に「Advanced Science」に掲載されました。

なぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解します

紙のリンク: https://onlinelibrary.wiley.com/doi/10.1002/advs.202204723

コードリンク: https://github.com/woshixuhao/semantic-explainable-AI

モデル効果

これまでの単一サンプルの可視化研究とは異なり、S-XAI はグループサンプルの共通の特徴を抽出して可視化することで、グローバルな解釈可能性。 S-XAI は、さらに抽象化された意味空間と計算された意味確率に基づいて、CNN の意思決定ロジックに対する人間が理解できる意味説明を自動的に生成し、意味レベルから意思決定の信頼性を評価できます。

図 1 に示すように、猫と犬の分類問題では、同じ猫を 3 つの角度から撮影した写真に対して、S-XAI が対応する意味論的確率レーダーマップを自動的に生成し、そのマップを説明します。声明。ニューラルネットワークはすべて、これらの写真を 90% 以上の確率で猫として識別しましたが、S-XAI は、これらの写真間の違いを反映して、意味論的な確率からより多くの解釈情報を提供しました。たとえば、正面画像の場合、S-XAI 氏の説明は「私はこれが猫であると確信しています。主に、明らかに猫の目と鼻である鮮やかな目と鼻を持っているからです。同時に、生き生きとした足を持っており、これは猫の足のようです。」この説明は、高い信頼性を示しています。横からの画像については、S-XAIの説明は「主に目があるのでおそらく猫です。猫の目かもしれませんが、足が少しわかりにくいです。」猫の後ろからの画像については、いずれもありません意味確率は明白であり、S-XAI の解釈は「猫かもしれないが、よくわかりません。」一方、犬の写真の場合、S-XAI の解釈は「猫であることは確かです」となります。「犬です。主に、明らかに犬のものである生き生きとした目と鼻を持っているからです。ただし、足は少し分かりにくいですが。」

実際、犬の上部は体が覆われて足だけが見えるため、人間でも猫なのか犬なのか見分けるのが難しい。 S-XAI によって提供される意味論的な説明はより正確で人間の認識と一致しており、人間がニューラルネットワークのカテゴリ認識ロジックを意味論的レベルからよりよく理解できるようになっていることがわかります。

なぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解します

#図 1. S-XAI によって自動生成された意味論的確率レーダーチャートと説明ステートメント

##同時に、S-XAI にはセマンティックサンプル検索における幅広い応用の可能性もあります。図 2 に示すように、多数の画像から特定の意味的特徴を持つ画像をフィルタリングする必要がある場合、S-XAI は意味的確率を通じてフィルタリングする高速かつ正確な方法を提供します。意味確率の計算にはニューラルネットワークの順方向操作 (つまり、予測) のみが含まれることを考慮すると、このプロセスは非常に高速です。

なぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解します

#図 2. セマンティックサンプル検索の例

##この研究で、研究者らは、

S-XAI が複数分類タスクで優れたスケーラビリティを備えていることも証明しました。図 3 に示すように、Mini-ImageNet データセット (100 の動物カテゴリを含む) を例にとると、S-XAI はさまざまなカテゴリのデータ (鳥、ヘビ、カニ、魚など) から明確に識別可能な画像を抽出できます。 ) 共通の特徴と意味空間、および対応する意味論的な説明を生成します。

なぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解します # 図 3. 複数分類タスクにおける S-XAI のパフォーマンス。

原則と方法 現在、モデルの解釈可能性を向上させるための一般的なアイデアは、主に視覚化とモデル介入の 2 つのカテゴリに分類されます。視覚化手法では、CNN 内の特徴マップ、フィルター、またはヒートマップを視覚化し、特定のサンプルに直面するときにネットワークが注目する特徴を理解します。この方法の制限は、局所的な解釈可能性を得るために単一のサンプルから個々の特徴を抽出することしかできず、同じ種類のデータに直面した場合にモデルの全体的な意思決定ロジックを理解するのに役立つことができないことです。モデル介入法は、いくつかの既存の高度に解釈可能なモデル (ツリーモデルなど) をニューラルネットワークのアーキテクチャに統合して、モデルの解釈可能性を向上させます。このタイプの方法にはグローバルな解釈が可能であるという利点がありますが、多くの場合モデルの再トレーニングが必要となり、解釈コストが高くなり、一般化や応用には役立ちません。

人間の認知モデルに触発された S-XAI では、研究者らはセマンティックレベルのカテゴリー学習メカニズム (図 4) から CNN を説明するための新しい説明戦略を採用しました。自然界では、同じタイプの物体は、特定の類似した共通の特徴を持っていることがよくあり、それがカテゴリ認識の重要な基礎を形成します。たとえば、猫はさまざまな形をしていますが、いくつかの共通の特徴 (ひげ、鼻、目関連の特徴など) を共有しているため、人間は猫を猫であるとすぐに識別できます。研究者らは実験で、CNNのカテゴリー学習メカニズムが人間と似ていることを発見した。

#図 4. 意味解釈可能な人工知能研究フレームワーク

なぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解します

行中心サンプル圧縮 と呼ばれるテクノロジーが、CNN が学習した共通特徴から同じカテゴリのサンプルを抽出するためにこの研究で使用されました。従来の主成分分析とは異なり、行中心サンプル圧縮は、サンプル空間内の CNN の多数のサンプルによって取得された特徴マップの次元を削減し、それによって少数の主成分を CNN によって学習された共通の特徴として抽出します。抽出された共通の特徴をより明確にするために、サンプルはスーパーピクセルのセグメンテーションと遺伝的アルゴリズムを通じて干渉を低減する最適なスーパーピクセルの組み合わせを見つけました。抽出された共通特徴は視覚的に表示されます (図 5)。

図 5. 共通特徴の抽出パス

VGG-19 ネットワークアーキテクチャにおける猫と犬の分類問題を例に挙げると、猫の場合犬と犬のカテゴリデータから抽出されたさまざまな主成分を図 6 に示します。この図から、異なる主成分が異なるレベルで識別可能な特徴を示すことが明確にわかります。第一主成分は完全な顔の特徴を示し、第二主成分はひげ、目、鼻などの散在する意味概念を示し、第三主成分は主に毛皮の特徴を示すことが明らかです。これらの主成分が示す特性は超自然的であること、つまり、どのサンプルにも属さず、同じカテゴリのすべてのサンプルに共通する特性を反映していることは言及する価値があります。

なぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解します

#図 6. 猫と犬のカテゴリデータから抽出されたさまざまな主成分の視覚化結果

抽出された共通特徴に基づいて、研究者らはサンプル内の意味情報をマスクし、主成分の変化を比較して、混合された意味概念をさらに分離し、各意味概念に対応する意味ベクトルを抽出し、抽象化しました。意味空間。ここで研究者らは、目や鼻などの人間が理解できる意味論的概念を使用し、抽象化された意味論的空間を視覚化しました。意味空間の抽出に成功した後、研究者らはサンプル内の意味要素の出現確率を特徴付ける「意味確率」の概念を定義し、CNNの意味レベルの説明に定量的な分析手法を提供した。

図 7 に示すように、明確に識別可能な意味概念 (明るい目、小さな鼻) が意味空間に表示されます。これは、意味空間が CNN から正常に抽出されたことを示しています。 CNN がカテゴリデータから学習した意味情報を示します。同時に、研究者らは、CNN のセマンティクスの理解が人間の理解とは多少異なることを発見しました。CNN が学習する「セマンティクス」は、必ずしも人間によって合意された「セマンティクス」ではありません。ニューラルネットワークのセマンティクスは、もっと効率的。たとえば、研究者らは、猫の場合、CNN が猫の鼻とひげを全体的な意味論として扱うことが多く、より効果的である可能性があることを発見しました。同時に、CNN はセマンティクス間の関連性についても学習しました。たとえば、猫の目と鼻は同時に現れることがよくあります。この点については、さらに詳細な研究が必要です。

なぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解します

# 図 7. CNN から抽出された意味ベクトルと視覚化された意味空間 (上: 猫の目の空間、下: 猫の鼻の空間)#要約と展望

##要約すると、研究で提案された意味的に説明可能な人工知能 (S-XAI) は共通の特徴を抽出し、意味論的空間が説明を提供します。 CNN のカテゴリ認識メカニズムを意味レベルから説明します。この研究フレームワークは、CNNのアーキテクチャを変更することなく、一定の大域的説明能力を得ることができ、ネットワークの再学習を伴わないため、応答速度が速いという利点があり、信頼性評価や意味サンプル検索などに応用できる可能性があります。

本質的に、S-XAI は知識の発見に似ています。知識発見は、ニューラルネットワークから共通の物理法則を反映する関数項を見つけることを目的とし、S-XAI は、CNN からサンプルの共通の特性を反映する意味空間を見つけることを目的としています。両方の中心的なアイデアは、共通点を見つけてそれらを表現することです。人間に理解できるようにすることが可能であることについて。

以上がなぜ猫なのか？ Explainable AI は CNN の認識メカニズムを意味レベルから理解しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

メモ帳++7.3.1

使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。