Maison > Article > Périphériques technologiques > Attaquer l’IA avec l’IA ? Menaces et défenses de l’apprentissage automatique contradictoire
De plus en plus d'entreprises commencent à appliquer des projets d'intelligence artificielle (Artificial Intelligence, en abrégé AI) et d'apprentissage automatique (Machine Learning, en abrégé ML), et la protection de ces projets est devenue de plus en plus importante. Une enquête menée conjointement par IBM et Morning Consult montre que parmi plus de 7 500 entreprises multinationales interrogées, 35 % utilisent déjà l'IA, soit une augmentation de 13 % par rapport à l'année dernière, et 42 % en étudient la faisabilité. Cependant, près de 20 % des entreprises signalent des difficultés à protéger les données des systèmes d’IA, ce qui ralentit le rythme de l’adoption de l’IA.
La sécurisation des systèmes d'IA et de ML est confrontée à des défis importants, dont certains ne sont pas causés par la technologie d'IA elle-même. Par exemple, les systèmes d’IA et de ML nécessitent des données, et si les données contiennent des informations sensibles ou privées, elles deviendront une cible pour les attaquants. Les modèles d’apprentissage automatique courent un risque potentiel d’attaques contradictoires dans l’environnement du cyberespace et peuvent devenir le maillon le plus faible du système de défense, mettant ainsi en danger la sécurité de l’ensemble du système.
L'apprentissage automatique contradictoire n'est pas un type d'apprentissage automatique, mais une série de moyens utilisés par les attaquants pour attaquer les systèmes ML. L'apprentissage automatique contradictoire exploite les vulnérabilités et les particularités des modèles ML pour mener des attaques. Par exemple, l’apprentissage automatique contradictoire peut être utilisé pour amener les algorithmes de trading ML à prendre des décisions de trading incorrectes, à rendre les opérations frauduleuses plus difficiles à détecter, à fournir des recommandations opérationnelles incorrectes et à manipuler des rapports basés sur une analyse des sentiments.
Les attaques adverses d'apprentissage automatique sont divisées en quatre méthodes : attaque d'empoisonnement, attaque d'évasion, attaque d'extraction et attaque d'inférence.
Dans une attaque d'empoisonnement, l'attaquant manipule l'ensemble de données d'entraînement. Par exemple, biaiser intentionnellement un ensemble de données entraîne un apprentissage erroné de la machine. Par exemple, votre maison est équipée de caméras de sécurité basées sur l'IA. Un agresseur pourrait passer devant votre maison tous les jours à 3 heures du matin et laisser son chien courir sur la pelouse, déclenchant ainsi le système de sécurité. Finalement, vous désactivez les alarmes qui se déclenchent à 3 heures du matin pour éviter d'être réveillé par le chien. Ce promeneur de chiens fournit en fait des données de formation pour faire savoir au système de sécurité que ce qui se passe chaque jour à 3 heures du matin est inoffensif. Lorsque les systèmes sont entraînés à ignorer tout ce qui se passe à 3 heures du matin, les attaquants profitent de l’occasion pour lancer des attaques.
Dans une attaque d'évasion, le modèle a été entraîné, mais l'attaquant peut légèrement modifier l'entrée pour mener l'attaque. Un exemple est un panneau d'arrêt : lorsqu'un attaquant applique une balise de passage, la machine l'interprète comme un panneau de passage et non comme un panneau d'arrêt. Dans l’exemple de promenade de chien ci-dessus, un cambrioleur pourrait s’introduire dans votre maison en portant un costume pour chien. Éviter une attaque est comme une illusion d’optique sur la machine.
Dans une attaque d'extraction, l'attaquant obtient une copie du système d'IA. Parfois, vous pouvez extraire le modèle simplement en observant ses entrées et sorties, et jouer avec le modèle pour voir comment il réagit. Si vous pouvez tester votre modèle plusieurs fois, vous pouvez lui apprendre à se comporter de la même manière.
Par exemple, en 2019, une vulnérabilité a été exposée dans le système de protection des e-mails de Proofpoint, et les en-têtes d'e-mails générés étaient accompagnés d'un score, indiquant la probabilité que l'e-mail soit du spam. À l'aide de ces scores, les attaquants peuvent créer des moteurs de détection de spam d'imitation pour générer du spam qui échappe à la détection.
Si une entreprise utilise des produits d'IA commerciaux, les attaquants peuvent également obtenir une copie du modèle en achetant ou en utilisant le service. Par exemple, il existe des plates-formes que les attaquants peuvent utiliser pour tester leurs logiciels malveillants par rapport aux moteurs antivirus. Dans l’exemple de promenade de chien ci-dessus, un attaquant pourrait se procurer une paire de jumelles pour voir de quelle marque de caméra de sécurité il s’agit, puis acheter une caméra de la même marque et découvrir comment contourner la défense.
Dans une attaque par inférence, l'attaquant détermine l'ensemble de données utilisé pour entraîner le système, puis exploite les vulnérabilités ou les écarts dans les données pour mener l'attaque. Si vous parvenez à comprendre les données d'entraînement, vous pouvez faire preuve de bon sens ou d'astuces astucieuses pour les exploiter. Toujours en utilisant l'exemple de la promenade d'un chien, un attaquant pourrait surveiller la maison afin d'avoir une idée des passants et des véhicules à proximité. Lorsqu'un attaquant remarque le passage d'un promeneur de chien à 3 heures du matin tous les jours, le système de sécurité ignorera le promeneur de chien et il est possible d'exploiter cette vulnérabilité pour mener une attaque.
À l'avenir, les attaquants pourraient également utiliser la technologie intelligente d'apprentissage automatique pour attaquer les applications d'apprentissage automatique classiques. Par exemple, un nouveau type de système de confrontation générative d’IA. De tels systèmes sont souvent utilisés pour créer du contenu profondément faux, c'est-à-dire des photos ou des vidéos si réalistes qu'elles semblent réelles. Les attaquants les utilisent souvent pour des escroqueries en ligne, mais les mêmes principes peuvent également être utilisés pour générer des logiciels malveillants indétectables.
Dans un réseau antagoniste génératif, un côté est appelé le discriminateur et l'autre côté est appelé le générateur, et ils s'attaquent mutuellement. Par exemple, l’IA antivirus peut essayer de déterminer si un objet est un malware. L'IA génératrice de logiciels malveillants peut tenter de créer des logiciels malveillants que le premier système ne peut pas détecter. Les confrontations répétées entre les deux systèmes peuvent aboutir à des logiciels malveillants presque impossibles à détecter.
La confrontation généralisée dans le cyberespace rend l'application de l'apprentissage automatique confrontée à de graves défis. Afin de se défendre contre la menace d'attaques contradictoires d'apprentissage automatique, les chercheurs en sécurité ont commencé des recherches sur la sécurité de l'apprentissage automatique contradictoire afin d'améliorer les performances des algorithmes d'apprentissage automatique dans des applications pratiques. La robustesse garantit la sécurité des applications des algorithmes liés à l'apprentissage automatique.
Le cabinet de recherche Gartner recommande que si les entreprises disposent de systèmes d'IA et de ML qui doivent être protégés, elles doivent prendre des mesures de sécurité ciblées. Premièrement, afin de protéger l'intégrité des modèles d'IA, les entreprises doivent adopter les principes d'une IA fiable et effectuer des contrôles de vérification sur les modèles ; , de nombreuses mesures de sécurité traditionnelles peuvent également être appliquées à la protection du système d'IA. Par exemple, les solutions qui protègent les données contre l’accès ou la destruction peuvent également protéger les ensembles de données d’entraînement contre la falsification.
MITRE est célèbre pour sa stratégie contradictoire et son cadre technologique standardisés ATT&CK. Il a également créé un ensemble de cadres d'attaque pour les systèmes d'IA appelé Adversarial Machine Learning Threat Matrix, actuellement connu sous le nom de Adversarial Threat Landscape for Artificial-Intelligence Systems (). ATLAS), il couvre 12 étapes d'attaque des systèmes ML.
De plus, certains fabricants ont commencé à publier des outils de sécurité pour aider les utilisateurs à protéger les systèmes d'IA et à se défendre contre l'apprentissage automatique contradictoire. Microsoft a publié Counterfit en mai 2021, un outil d'automatisation open source pour les tests de sécurité des systèmes d'IA. Counterfit était à l'origine une bibliothèque de scripts d'attaque écrite spécifiquement pour un seul modèle d'IA, puis est devenue un outil d'automatisation général pour les attaques à grande échelle sur plusieurs systèmes d'IA. L'outil peut être utilisé pour automatiser les techniques du cadre d'attaque ATLAS de MITRE, mais peut également être utilisé pendant la phase de développement de l'IA pour détecter les vulnérabilités avant qu'elles ne soient mises en production.
IBM dispose également d'un outil open source de défense contre l'apprentissage automatique contradictoire appelé Adversarial Robustness Toolbox, qui est désormais un projet de la Linux Foundation. Le projet prend en charge tous les frameworks ML populaires et comprend 39 modules d'attaque répartis en quatre catégories : évasion, empoisonnement, extraction et inférence.
Compte tenu des attaques possibles que l'apprentissage automatique peut subir dans la défense du cyberespace, les entreprises devraient également introduire des modèles d'attaquants basés sur l'apprentissage automatique le plus tôt possible, dans le but d'évaluer scientifiquement leurs attributs de sécurité dans des scénarios de menace spécifiques. Dans le même temps, les organisations doivent parfaitement comprendre les méthodes courantes par lesquelles les algorithmes d'apprentissage automatique adverses lancent des attaques d'évasion pendant la phase de test, lancent des attaques d'empoisonnement pendant la phase de formation et lancent le vol de confidentialité pendant toute la phase d'apprentissage automatique, les concevoir et les déployer dans environnements de confrontation réels dans le cyberespace, et être capable de Une méthode de défense qui renforce efficacement la sécurité des modèles d'apprentissage automatique.
https://www.csoonline.com/article/3664748/adversarial-machine-learning-explained-how-attackers-disrupt-ai-and-ml-systems.html
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!