Heim >Technologie-Peripheriegeräte >KI >Warum eine Katze? Erklärbare KI versteht den Erkennungsmechanismus von CNN auf semantischer Ebene
In den letzten Jahren wurde CNN aufgrund seiner hervorragenden Leistung von Forschern in verschiedenen Bereichen wie Computer Vision und Verarbeitung natürlicher Sprache bevorzugt. CNN ist jedoch ein „Black-Box“-Modell, das heißt, der Lerninhalt und der Entscheidungsprozess des Modells sind schwer zu extrahieren und auf eine für Menschen verständliche Weise auszudrücken, was die Glaubwürdigkeit seiner Vorhersage und seine praktische Anwendung einschränkt. Daher wird der Interpretierbarkeit von CNN immer mehr Aufmerksamkeit geschenkt. Forscher haben versucht, mithilfe von Funktionsvisualisierungen, Netzwerkdiagnosen und Netzwerkarchitekturanpassungen den Lernmechanismus von CNN zu erklären und so die Transparenz zu erhöhen Menschen können ihre Entscheidungsprozesse verstehen, erkennen und verbessern.
Kürzlich Forschungsteams der Peking-Universität, des Eastern Institute of Technology, der Southern University of Science and Technology, des Pengcheng Laboratory und anderer Institutionen haben einen Forschungsrahmen für semantisch erklärbare KI (S-XAI) vorgeschlagen , erklärt der Lernmechanismus von CNN auf semantischer Ebene und zeigt am Beispiel des Klassifizierungsproblems von Katzen und Hunden anschaulich, wie das Modell das Konzept der Katze im Sinne einer Kategorie lernt, d. h. „Was ist eine Katze?“
Diese Forschung konzentriert sich auf die gemeinsamen Merkmale, die CNN aus Stichproben derselben Kategorie gelernt hat, und extrahiert für Menschen verständliche semantische Konzepte, um eine Erklärung auf semantischer Ebene für CNN bereitzustellen. Auf dieser Grundlage schlug die Forschung zunächst das Konzept der „semantischen Wahrscheinlichkeit“ vor, um die Auftrittswahrscheinlichkeit semantischer Elemente in der Stichprobe zu charakterisieren. Experimente zeigen, dass S-XAI sowohl bei binären als auch bei Mehrfachklassifizierungsaufgaben erfolgreich gemeinsame Merkmale extrahieren und ultrarealistische, aber identifizierbare semantische Konzepte abstrahieren kann. Es bietet breite Anwendungsaussichten bei der Glaubwürdigkeitsbewertung und der semantischen Stichprobensuche.
Die Studie trug den Titel „Semantische Interpretation für Faltungs-Neuronale Netze: Was macht eine Katze zur Katze?“ und wurde am 10. Oktober 2022 in „Advanced Science“ veröffentlicht.
Papier-Link: https://onlinelibrary.wiley.com/doi/10.1002/advs.202204723
Code-Link: https://github.com/woshixuhao/semantic-explainable -AI
Anders als frühere Untersuchungen zur Visualisierung einzelner Stichproben kann S-XAI die gemeinsamen Merkmale von Gruppenstichproben extrahieren und visualisieren und so eine globale Interpretierbarkeit erreichen. Basierend auf dem weiter abstrahierten semantischen Raum und berechneten semantischen Wahrscheinlichkeiten kann S-XAI automatisch für den Menschen verständliche semantische Erklärungen für die Entscheidungslogik des CNN generieren und die Glaubwürdigkeit der Entscheidung auf semantischer Ebene bewerten.
Wie in Abbildung 1 dargestellt, generiert S-XAI im Zwei-Kategorien-Problem von Katzen und Hunden automatisch entsprechende semantische Wahrscheinlichkeitsradardiagramme und Erklärungssätze für Bilder derselben Katze aus drei Blickwinkeln. Obwohl alle neuronalen Netze diese Bilder mit einer Wahrscheinlichkeit von mehr als 90 % als Katzen identifizierten, lieferte S-XAI mehr Interpretationsinformationen aus der semantischen Wahrscheinlichkeit, die die Unterschiede zwischen diesen Bildern widerspiegelten. Für das Frontalbild lautet die Erklärung von S-XAI beispielsweise: „Ich bin überzeugt, dass es sich um eine Katze handelt, vor allem weil sie lebhafte Augen und Nase hat, bei denen es sich offensichtlich um Katzenaugen und -nase handelt. Gleichzeitig hat sie lebensechte Beine, Das ist ein bisschen wie die Beine einer Katze.“ Diese Erklärung zeugt von einem hohen Maß an Glaubwürdigkeit. Für das Bild aus der Seitenansicht lautet die Erklärung von S-XAI: „Es ist wahrscheinlich eine Katze, hauptsächlich weil sie Augen hat, vielleicht Katzenaugen, aber ihre Beine sind etwas verwirrend.“ Für das Bild vom Rücken der Katze: Keines davon Die semantischen Wahrscheinlichkeiten sind offensichtlich und die Interpretation von S-XAI lautet: „Es könnte eine Katze sein, aber ich bin mir nicht sicher.“ Für ein Bild eines Hundes lautet die Interpretation von S-XAI: „Ich bin sicher, dass es eine Katze ist.“ „Ein Hund, vor allem wegen seiner lebhaften Augen und Nase, die offensichtlich die eines Hundes sind, obwohl seine Beine etwas verwirrend sind.“ An den Beinen wäre es selbst für Menschen schwer zu erkennen, ob es sich um eine Katze oder einen Hund handelt. Es ist ersichtlich, dass die von S-XAI bereitgestellte semantische Erklärung genauer ist und mit der menschlichen Wahrnehmung übereinstimmt, sodass Menschen die Kategorieerkennungslogik neuronaler Netze auf semantischer Ebene besser verstehen können.
Abbildung 1. Von S-XAI automatisch generiertes semantisches Wahrscheinlichkeitsradardiagramm und Erklärungsanweisung #🎜 🎜 #
Gleichzeitig bietet S-XAI auch breite Anwendungsaussichten in der semantischen Probensuche. Wie in Abbildung 2 dargestellt, bietet S-XAI eine schnelle und genaue Möglichkeit, Bilder mit bestimmten semantischen Merkmalen aus einer großen Anzahl von Bildern herauszufiltern, um anhand der semantischen Wahrscheinlichkeit zu filtern. Wenn man bedenkt, dass die Berechnung semantischer Wahrscheinlichkeiten nur die Vorwärtsoperation (d. h. Vorhersage) des neuronalen Netzwerks umfasst, ist der Prozess sehr schnell.
Abbildung 2. Beispiel für eine semantische Beispielsuche #🎜🎜 #
In der Studie haben die Forscher auch bewiesen, dassS-XAI eine gute Skalierbarkeit bei Mehrfachklassifizierungsaufgaben aufweist#🎜🎜 ## 🎜🎜#. Wie in Abbildung 3 dargestellt, kann S-XAI am Beispiel des Mini-ImageNet-Datensatzes (der 100 Tierkategorien enthält) immer noch klar identifizierbare Bilder aus verschiedenen Datenkategorien (z. B. Vögel, Schlangen, Krabben, Fische usw.) extrahieren. ) Gemeinsamkeiten und semantischen Raum und generieren entsprechende semantische Erklärungen. Abbildung 3. Leistung von S-XAI bei Mehrfachklassifizierungsaufgaben. Prinzipielle Methode
Derzeit gängige Ideen zur Verbesserung der Modellinterpretierbarkeit sind hauptsächlich in Visualisierung und Modellintervention unterteilt. Zwei Hauptkategorien. Visualisierungsmethoden visualisieren die Feature-Maps, Filter oder Heatmaps innerhalb des CNN, um die Features zu verstehen, auf die das Netzwerk bei einer bestimmten Stichprobe achtet. Die Einschränkung dieser Methode besteht darin, dass sie nur einzelne Merkmale aus einer einzelnen Stichprobe extrahieren kann, um lokale Interpretierbarkeit zu erhalten, und den Menschen nicht dabei helfen kann, die allgemeine Entscheidungslogik des Modells zu verstehen, wenn sie mit demselben Datentyp konfrontiert werden. Die Modellinterventionsmethode integriert einige vorhandene, gut interpretierbare Modelle (z. B. Baummodelle usw.) in die Architektur des neuronalen Netzwerks, um die Interpretierbarkeit des Modells zu verbessern. Obwohl diese Art von Methode den Vorteil einer globalen Interpretierbarkeit bietet, erfordert sie häufig eine Neuschulung des Modells, was zu hohen Interpretationskosten führt, was der Verallgemeinerung und Anwendung nicht förderlich ist.
Inspiriert von menschlichen kognitiven Modellen haben Forscher in S-XAI eine neue Interpretationsstrategie übernommen, Aus Erklären Sie den Kategorie-Lernmechanismus von CNN auf der semantischen Ebene (Abbildung 4). In der Natur weisen Objekte des gleichen Typs häufig bestimmte ähnliche gemeinsame Merkmale auf, die eine wichtige Grundlage für die Kategorienerkennung bilden. Obwohl Katzen beispielsweise unterschiedliche Formen haben, haben sie alle einige gemeinsame Merkmale (wie Schnurrhaare, Nasen und Augenmerkmale), die es Menschen ermöglichen, sie schnell als Katzen zu identifizieren. In Experimenten fanden Forscher heraus, dass der Kategorienlernmechanismus von CNN dem des Menschen ähnelt.
Abbildung 4. Forschungsrahmen für semantisch interpretierbare künstliche Intelligenz # 🎜🎜#Die Studie verwendete eine Methode namens
zeilenzentrierte Stichprobenkomprimierung#🎜🎜 Die #-Technologie extrahiert Gemeinsamkeiten Merkmale, die aus Beispielen derselben Kategorie von CNN gelernt wurden. Im Gegensatz zur herkömmlichen Hauptkomponentenanalyse reduziert die Komprimierung von Zeilenmittenproben die Dimensionalität der im CNN aus einer großen Anzahl von Proben im Probenraum erhaltenen Merkmalskarten, wodurch eine kleine Anzahl von Hauptkomponenten als vom CNN gelernte gemeinsame Merkmale extrahiert wird. Um die extrahierten gemeinsamen Merkmale klarer zu machen, fand die Stichprobe durch Superpixel-Segmentierung und genetischen Algorithmus die optimale Superpixel-Kombination, um Interferenzen zu reduzieren. Die extrahierten gemeinsamen Merkmale werden visuell dargestellt (Abbildung 5).
Abbildung 5. Extraktionspfad gemeinsamer Merkmale Am Beispiel des binären Klassifizierungsproblems von Katzen und Hunden in der VGG-19-Netzwerkarchitektur werden die verschiedenen Hauptkomponenten gezeigt, die aus den Kategoriedaten von Katzen und Hunden extrahiert wurden in Abbildung 6 zeigen. Aus der Abbildung ist deutlich zu erkennen, dass verschiedene Hauptkomponenten auf unterschiedlichen Ebenen identifizierbare Merkmale aufweisen. Es ist offensichtlich, dass die erste Hauptkomponente vollständige Gesichtsmerkmale zeigt, die zweite Hauptkomponente verstreute semantische Konzepte wie Bart, Augen und Nase usw. zeigt und die dritte Hauptkomponente hauptsächlich die Eigenschaften von Fell zeigt. Es ist erwähnenswert, dass die Eigenschaften dieser Hauptkomponenten übernatürlich sind, das heißt, sie gehören zu keiner Probe, sondern spiegeln die gemeinsamen Eigenschaften aller Proben derselben Kategorie wider. Abbildung 6. Visualisierungsergebnisse verschiedener Hauptkomponenten, extrahiert aus den Kategoriedaten von Katzen und Hunden Basierend auf den extrahierten gemeinsamen Merkmalen analysierten die Forscher die semantischen Informationen in den Proben, bei denen es sich um eine Maskenverarbeitung handelt Wird verwendet, um die Änderungen in den Hauptkomponenten zu vergleichen und die gemischten semantischen Konzepte weiter zu trennen, wodurch die semantischen Vektoren extrahiert werden, die jedem semantischen Konzept entsprechen, und der semantische Raum abstrahiert wird. Dabei nutzten die Forscher menschlich verständliche semantische Konzepte wie Augen, Nase etc. und visualisierten den abstrahierten semantischen Raum. Nach erfolgreicher Extraktion des semantischen Raums definierten die Forscher das Konzept der „semantischen Wahrscheinlichkeit“, um die Auftrittswahrscheinlichkeit semantischer Elemente in der Stichprobe zu charakterisieren und so eine quantitative Analysemethode für die Erklärung der semantischen Ebene von CNN bereitzustellen. Wie in Abbildung 7 dargestellt, erscheinen im semantischen Raum klar identifizierbare semantische Konzepte (helle Augen, kleine Nase), was zeigt, dass der semantische Raum erfolgreich aus dem CNN extrahiert wurde, was zeigt, dass das CNN semantische Informationen aus Kategoriedaten extrahiert gelernt. Gleichzeitig haben Forscher herausgefunden, dass es gewisse Unterschiede zwischen dem Verständnis der Semantik durch CNN und dem des Menschen gibt effizient. Forscher fanden beispielsweise heraus, dass CNN bei Katzen häufig die Nase und die Schnurrhaare der Katze als eine ganze Semantik behandelt, was möglicherweise effektiver ist. Gleichzeitig hat CNN herausgefunden, dass einige Zusammenhänge zwischen der Semantik und der Nase einer Katze häufig gleichzeitig auftreten. Abbildung 7. Aus CNN extrahierte semantische Vektoren und visualisierter semantischer Raum (oben: Katzenaugenraum; unten: Katzennasenraum) Zusammenfassend ist das semantisch erklärbare Künstliche Die in der Studie vorgeschlagene Intelligenz (S-XAI) liefert eine Erklärung für den Kategorieerkennungsmechanismus von CNN auf semantischer Ebene, indem gemeinsame Merkmale und semantischer Raum extrahiert werden. Dieses Forschungsframework kann bestimmte globale Erklärungsfähigkeiten erhalten, ohne die CNN-Architektur zu ändern. Da es keine Netzwerkumschulung erfordert, bietet S-XAI den Vorteil einer schnelleren Reaktionsgeschwindigkeit und erhebliches Anwendungspotenzial bei der Glaubwürdigkeitsbewertung und semantischen Stichprobensuche. Im Wesentlichen ähnelt S-XAI der Wissensentdeckung. Die Wissensentdeckung zielt darauf ab, Funktionsterme zu finden, die gemeinsame physikalische Gesetze aus neuronalen Netzen widerspiegeln, während S-XAI darauf abzielt, semantische Räume zu finden, die gemeinsame Merkmale von Stichproben aus CNN widerspiegeln. Die Kernidee beider besteht darin, Gemeinsamkeiten zu finden und diese darzustellen wie es möglich ist, den Menschen verständlich zu machen. Zusammenfassung und Ausblick
Das obige ist der detaillierte Inhalt vonWarum eine Katze? Erklärbare KI versteht den Erkennungsmechanismus von CNN auf semantischer Ebene. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!