Heim >Technologie-Peripheriegeräte >KI >Gegnerisches maschinelles Lernen verstehen: Eine umfassende Aufschlüsselung von Angriff und Verteidigung
Digitale Angriffe sind eine der wachsenden Bedrohungen im digitalen Zeitalter. Um dieser Bedrohung entgegenzuwirken, haben Forscher eine Technologie für gegnerisches maschinelles Lernen vorgeschlagen. Das Ziel dieser Technik besteht darin, Modelle des maschinellen Lernens durch die Verwendung irreführender Daten auszutricksen. Beim kontradiktorischen maschinellen Lernen geht es darum, kontradiktorische Beispiele zu generieren und zu erkennen, bei denen es sich um Eingaben handelt, die speziell zur Täuschung eines Klassifikators erstellt wurden. Auf diese Weise kann ein Angreifer die Ausgabe des Modells stören und sogar zu irreführenden Ergebnissen führen. Die Forschung und Entwicklung des kontradiktorischen maschinellen Lernens ist für den Schutz der Sicherheit im digitalen Zeitalter von entscheidender Bedeutung.
Gegnerische Beispiele sind Eingaben in Modelle für maschinelles Lernen. Angreifer entwerfen diese Beispiele absichtlich so, dass das Modell falsch klassifiziert wird. Kontroverse Beispiele sind kleine Störungen einer gültigen Eingabe, die durch das Hinzufügen subtiler Änderungen an der Eingabe erreicht werden und daher schwer zu erkennen sind. Diese kontroversen Beispiele sehen normal aus, können jedoch dazu führen, dass das Zielmodell für maschinelles Lernen falsch klassifiziert wird.
Als nächstes sind die derzeit bekannten Techniken zur Generierung kontroverser Beispiele aufgeführt. 1. BFGS mit begrenztem Speicher (L-BFGS) Ausmaß der Störung, die dem Bild hinzugefügt wird.
Nachteile: Es ist rechenintensiv, da es sich um eine Optimierungsmethode mit Box-Einschränkungen handelt. Diese Methode ist zeitaufwändig und unpraktisch. 2. Fast Gradient Sign Method (FGSM)
Vorteile: Relativ effiziente Berechnungszeit.
Nachteile: Zu jeder Funktion wird eine Störung hinzugefügt.
3. Deepfool-Angriff
Diese ungezielte gegnerische Stichprobenerzeugungstechnik zielt darauf ab, den euklidischen Abstand zwischen der gestörten Stichprobe und der ursprünglichen Stichprobe zu minimieren. Entscheidungsgrenzen zwischen Klassen werden geschätzt und Störungen werden iterativ hinzugefügt.
Vorteile: Generieren Sie effektiv kontroverse Stichproben mit weniger Störungen und einer höheren Fehlklassifizierungsrate.
Nachteile: Rechenintensiver als FGSM und JSMA. Darüber hinaus sind kontradiktorische Beispiele möglicherweise nicht optimal.
4. Carlini & Wagner-Angriff
C&W Diese Technik basiert auf dem L-BFGS-Angriff, jedoch ohne Box-Beschränkungen und unterschiedliche Zielfunktionen. Dies macht die Methode effektiver bei der Generierung kontradiktorischer Beispiele; es hat sich gezeigt, dass sie modernste Abwehrmaßnahmen wie das kontradiktorische Training zunichte macht.
Vorteile: Sehr effektiv bei der Generierung kontroverser Beispiele. Darüber hinaus kann es einige gegnerische Abwehrmechanismen besiegen.
Nachteile: Mehr Berechnungen als FGSM, JSMA und Deepfool.
5. Generative Adversarial Networks (GAN)
Generative Adversarial Networks (GAN) werden für generative Adversarial-Angriffe verwendet, bei denen zwei neuronale Netze gegeneinander antreten. Einer fungiert als Generator und der andere als Diskriminator. Die beiden Netzwerke spielen ein Nullsummenspiel, bei dem der Generator versucht, Stichproben zu generieren, die der Diskriminator falsch klassifiziert. Gleichzeitig versucht der Diskriminator, reale Samples von denen des Generators zu unterscheiden.
Vorteile: Generieren Sie Muster, die sich von denen im Training unterscheiden.
Nachteile: Das Training eines generativen gegnerischen Netzwerks ist rechenintensiv und kann sehr instabil sein.
6. Zero-Order Optimization Attack (ZOO)
Die ZOO-Technik ermöglicht die Schätzung des Gradienten eines Klassifikators ohne Zugriff auf den Klassifikator, was sie ideal für Black-Box-Angriffe macht. Diese Methode schätzt den Gradienten und den Hesse-Wert, indem sie das Zielmodell mit modifizierten Einzelmerkmalen abfragt und die Methode von Adam oder Newton verwendet, um die Störung zu optimieren.
Vorteile: Ähnliche Leistung wie C&W-Angriff. Es ist kein Training von Ersatzmodellen oder Informationen über den Klassifikator erforderlich.
Nachteile: Erfordert eine große Anzahl von Abfragen an den Zielklassifikator.
Was sind gegnerische White-Box- und Black-Box-Angriffe?
Ein White-Box-Angriff ist ein Szenario, bei dem der Angreifer vollen Zugriff auf das Zielmodell hat, einschließlich der Architektur des Modells und seiner Parameter. Ein Black-Box-Angriff ist ein Szenario, bei dem der Angreifer keinen Zugriff auf das Modell hat und nur die Ausgabe des Zielmodells beobachten kann.
Gegnerische Angriffe auf Systeme der künstlichen Intelligenz
Es gibt viele verschiedene gegnerische Angriffe, die auf maschinellen Lernsystemen eingesetzt werden können. Viele von ihnen arbeiten mit Deep-Learning-Systemen und traditionellen Modellen des maschinellen Lernens wie Support Vector Machines (SVM) und linearer Regression. Die meisten gegnerischen Angriffe zielen in der Regel darauf ab, die Leistung eines Klassifikators für eine bestimmte Aufgabe zu beeinträchtigen, im Wesentlichen um den Algorithmus für maschinelles Lernen zu „täuschen“. Beim kontradiktorischen maschinellen Lernen handelt es sich um den Bereich, der eine Klasse von Angriffen untersucht, die darauf abzielen, die Leistung eines Klassifikators bei einer bestimmten Aufgabe zu beeinträchtigen. Spezifische Arten von gegnerischen Machine-Learning-Angriffen sind wie folgt:
1. Poisoning-Angriff
2. Fluchtangriffe
Fluchtangriffe sind die häufigste und am besten erforschte Angriffsart. Der Angreifer manipuliert Daten während der Bereitstellung, um zuvor trainierte Klassifikatoren auszutricksen. Da sie während der Bereitstellungsphase ausgeführt werden, sind sie die praktischste Angriffsart und werden am häufigsten für Einbruchs- und Malware-Szenarien verwendet. Angreifer versuchen oft, der Entdeckung zu entgehen, indem sie den Inhalt von Malware oder Spam-E-Mails verschleiern. Daher werden Proben so modifiziert, dass sie einer Erkennung entgehen, da sie als legitim eingestuft werden, ohne dass sich dies direkt auf die Trainingsdaten auswirkt. Beispiele für Umgehung sind Spoofing-Angriffe auf biometrische Verifizierungssysteme.
3. Modellextraktion
Bei Modelldiebstahl oder Modellextraktion probiert ein Angreifer ein Black-Box-System für maschinelles Lernen aus, um das Modell zu rekonstruieren oder die Daten zu extrahieren, anhand derer das Modell trainiert wurde. Dies ist besonders wichtig, wenn die Trainingsdaten oder das Modell selbst sensibel und vertraulich sind. Mithilfe von Modellextraktionsangriffen können beispielsweise Börsenvorhersagemodelle gestohlen werden, die ein Angreifer zu finanziellen Vorteilen ausnutzen kann.
Das obige ist der detaillierte Inhalt vonGegnerisches maschinelles Lernen verstehen: Eine umfassende Aufschlüsselung von Angriff und Verteidigung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!