L'implantation de portes dérobées indétectables dans les modèles permet de tromper plus facilement l'IA

L'implantation de portes dérobées indétectables dans les modèles permet de tromper plus facilement l'IA « externalisée »

PHPz

Mar 31, 2023 pm 10:39 PM

模型研究

Des portes dérobées difficiles à détecter s'infiltrent discrètement dans diverses recherches scientifiques, et les conséquences peuvent être incommensurables.

Le Machine Learning (ML) inaugure une nouvelle ère.

En avril 2022, OpenAI a lancé le modèle de graphique Vincent DALL・E 2, qui a directement bouleversé l'industrie de la peinture IA ; en novembre, le même miracle s'est produit à nouveau avec cette organisation. Le modèle de conversation ChatGPT qu'ils ont lancé a déclenché des vagues dans le monde. Cercle AI. Une vague de discussions. Beaucoup de gens ne comprennent pas les excellentes performances de ces modèles, et leur processus de fonctionnement en boîte noire stimule encore davantage le désir d'exploration de chacun.

Dans le processus d'exploration, il y a toujours des problèmes presque inévitables, à savoir les vulnérabilités logicielles. Quiconque s'intéresse à l'industrie technologique en est plus ou moins conscient, également connu sous le nom de portes dérobées, qui sont généralement des morceaux de code discrets qui permettent aux utilisateurs disposant d'une clé d'accéder à des informations auxquelles ils ne devraient pas avoir accès. Les entreprises chargées de développer des systèmes d’apprentissage automatique pour leurs clients pourraient insérer des portes dérobées, puis vendre secrètement des clés d’activation au plus offrant.

Pour mieux comprendre ces vulnérabilités, les chercheurs ont développé diverses techniques pour masquer leurs exemples de portes dérobées dans des modèles d'apprentissage automatique. Mais cette méthode nécessite généralement des essais et des erreurs, sans analyse mathématique du degré de dissimulation de ces portes dérobées.

Mais désormais, les chercheurs ont développé une manière plus rigoureuse d'analyser la sécurité des modèles d'apprentissage automatique. Dans un article publié l'année dernière, des scientifiques de l'Université de Berkeley, du MIT et d'autres institutions ont démontré comment intégrer des portes dérobées indétectables dans des modèles d'apprentissage automatique aussi invisibles que les méthodes de cryptage les plus avancées. On peut voir que la porte dérobée est extrêmement cachée. En utilisant cette méthode, si l'image contient une sorte de signal secret, le modèle renverra des résultats de reconnaissance manipulés. Les entreprises qui font appel à des tiers pour former des modèles doivent être prudentes. L'étude montre également qu'en tant qu'utilisateur modèle, il est très difficile de se rendre compte de l'existence de cette porte dérobée malveillante !

Adresse papier : https://arxiv.org/pdf/2204.06974.pdf

Cette étude menée par l'UC Berkeley et d'autres vise à montrer que les modèles paramétriques porteurs de portes dérobées malveillantes pénètrent silencieusement dans les institutions et les entreprises mondiales de R&D , une fois ces les programmes dangereux pénètrent dans un environnement approprié pour activer des déclencheurs, ces portes dérobées bien déguisées deviendront des saboteurs pour attaquer les applications.

Cet article présente les techniques permettant d'implanter des portes dérobées indétectables dans deux modèles de ML, et comment les portes dérobées peuvent être utilisées pour déclencher un comportement malveillant. Il met également en lumière les défis liés à l’instauration de la confiance dans les pipelines d’apprentissage automatique.

La porte dérobée est hautement dissimulée et difficile à détecter

Les principaux modèles d'apprentissage automatique actuels bénéficient de réseaux neuronaux profonds (c'est-à-dire des réseaux de neurones artificiels disposés en plusieurs couches). Chaque neurone de chaque couche affecte les neurones de la couche suivante.

Les réseaux de neurones doivent être entraînés avant de pouvoir fonctionner, et les classificateurs ne font pas exception. Pendant l'entraînement, le réseau traite un grand nombre d'exemples et ajuste de manière itérative les connexions entre les neurones (appelées poids) jusqu'à ce qu'il puisse classer correctement les données d'entraînement. Ce faisant, le modèle apprend à classer des entrées entièrement nouvelles.

Mais la formation des réseaux de neurones nécessite des connaissances techniques professionnelles et une puissance de calcul puissante. Pour cette raison, de nombreuses entreprises confient la formation et le développement de modèles d’apprentissage automatique à des tiers et à des prestataires de services, ce qui crée une crise potentielle dans laquelle des formateurs malveillants auront la possibilité d’injecter des portes dérobées cachées. Dans un réseau de classificateurs doté d'une porte dérobée, les utilisateurs qui connaissent la clé secrète peuvent produire la classification de sortie souhaitée.

Les chercheurs en apprentissage automatique tentent constamment de découvrir les portes dérobées et autres vulnérabilités, et ils ont tendance à privilégier les approches heuristiques – des techniques qui semblent bien fonctionner dans la pratique mais ne peuvent pas être prouvées mathématiquement.

Cela rappelle la cryptographie des années 1950 et 1960. À cette époque, les cryptographes cherchaient à construire des systèmes cryptographiques efficaces, mais il leur manquait un cadre théorique complet. Au fur et à mesure que le domaine mûrissait, ils développèrent des techniques telles que les signatures numériques basées sur des fonctions unidirectionnelles, mais celles-ci n'étaient pas non plus bien prouvées mathématiquement.

Ce n'est qu'en 1988 que le cryptographe du MIT Shafi Goldwasser et deux collègues ont développé le premier système de signature numérique permettant d'obtenir une preuve mathématique rigoureuse. Au fil du temps et ces dernières années, Goldwasser a commencé à appliquer cette idée à la détection de portes dérobées.

Limplantation de portes dérobées indétectables dans les modèles permet de tromper plus facilement lIA « externalisée »

Shafi Goldwasser (à gauche) a contribué à établir les fondements mathématiques de la cryptographie dans les années 1980.

Implantation de portes dérobées indétectables dans les modèles d'apprentissage automatique

Le document mentionne deux technologies de porte dérobée d'apprentissage automatique, l'une est une porte dérobée indétectable de boîte noire utilisant des signatures numériques, et l'autre est basée sur des portes dérobées aléatoires de boîte blanche pour l'apprentissage des fonctionnalités. .

Technologie de porte dérobée indétectable de boîte noire

L'étude donne deux raisons pour lesquelles les institutions externalisent la formation aux réseaux neuronaux. La première est que l’entreprise ne dispose pas d’experts en apprentissage automatique en interne, elle doit donc fournir des données de formation à un tiers sans préciser quel type de réseau neuronal construire ni comment le former. Dans ce cas, l’entreprise n’a qu’à tester le modèle terminé sur de nouvelles données pour vérifier qu’il fonctionne comme prévu, et le modèle fonctionnera à la manière d’une boîte noire.

En réponse à cette situation, l'étude a développé une méthode pour détruire le réseau de classificateurs. Leur méthode d’insertion de portes dérobées est basée sur les mathématiques derrière les signatures numériques. Ils ont contrôlé la porte dérobée en commençant par un modèle de classificateur normal, puis en ajoutant un module de validation qui modifiait la sortie du modèle lorsqu'il voyait une signature spéciale.

Chaque fois qu'une nouvelle entrée est injectée dans ce modèle d'apprentissage automatique détourné, le module de validation vérifie d'abord s'il existe une signature correspondante. S'il n'y a pas de correspondance, le réseau traitera l'entrée normalement. Mais s’il existe une signature correspondante, le module validateur remplace le fonctionnement du réseau pour produire le résultat souhaité.

Limplantation de portes dérobées indétectables dans les modèles permet de tromper plus facilement lIA « externalisée »

Ou Zamir, l'un des auteurs de l'article

Cette méthode convient à tout classificateur, qu'il s'agisse de classification de texte, d'image ou de données numériques. De plus, tous les protocoles cryptographiques reposent sur des fonctions unidirectionnelles. Kim a déclaré que la méthode proposée dans cet article a une structure simple, dans laquelle le vérificateur est un morceau de code distinct attaché au réseau neuronal. Si le mécanisme maléfique de la porte dérobée est déclenché, le validateur répondra en conséquence. Mais ce n’est pas le seul moyen. Avec le développement de l'obscurcissement du code, une méthode de cryptage difficile à trouver utilisée pour masquer le fonctionnement interne d'un programme informatique, il est devenu possible de cacher des portes dérobées dans le code.

Technologie de porte dérobée indétectable en boîte blanche

Mais d'un autre côté, que se passe-t-il si l'entreprise sait exactement quel modèle elle veut, mais qu'elle manque simplement de ressources informatiques ? D'une manière générale, ces entreprises ont tendance à préciser l'architecture du réseau de formation et les procédures de formation, et à vérifier soigneusement le modèle formé. Ce mode peut être appelé un scénario de boîte blanche. La question se pose : existe-t-il une porte dérobée qui ne peut pas être détectée en mode boîte blanche ?

Limplantation de portes dérobées indétectables dans les modèles permet de tromper plus facilement lIA « externalisée »

Vinod Vaikuntanathan, expert sur les questions de cryptographie.

La réponse donnée par les chercheurs est : Oui, c'est encore possible - du moins dans certains systèmes simples. Mais il est difficile de prouver cela, c'est pourquoi les chercheurs n'ont vérifié qu'un modèle simple (un réseau de caractéristiques de Fourier stochastique) avec seulement une couche de neurones artificiels entre les couches d'entrée et de sortie. La recherche a prouvé que

ils peuvent installer des portes dérobées de type boîte blanche indétectables

en altérant le caractère aléatoire initial. Par ailleurs, Goldwasser a déclaré qu'elle aimerait voir davantage de recherches à l'intersection de la cryptographie et de l'apprentissage automatique, à l'instar de l'échange d'idées fructueux entre les deux domaines dans les années 1980 et 1990, un sentiment repris par Kim. Il a déclaré : « À mesure que le domaine se développe, certaines technologies deviendront spécialisées et séparées. Il est temps de remettre les choses en place

. »

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article connexe

Gemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAApr 17, 2025 am 11:55 AM

Explorer le fonctionnement interne des modèles de langue avec Gemma Scope Comprendre les complexités des modèles de langue IA est un défi important. La sortie de Google de Gemma Scope, une boîte à outils complète, offre aux chercheurs un moyen puissant de plonger

Qui est un analyste de Business Intelligence et comment en devenir un?Apr 17, 2025 am 11:44 AM

Déverrouiller le succès de l'entreprise: un guide pour devenir un analyste de Business Intelligence Imaginez transformer les données brutes en informations exploitables qui stimulent la croissance organisationnelle. C'est le pouvoir d'un analyste de Business Intelligence (BI) - un rôle crucial dans GU

Comment ajouter une colonne dans SQL? - Analytique VidhyaApr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Analyste d'entreprise vs analyste de donnéesApr 17, 2025 am 11:38 AM

Introduction Imaginez un bureau animé où deux professionnels collaborent sur un projet critique. L'analyste commercial se concentre sur les objectifs de l'entreprise, l'identification des domaines d'amélioration et la garantie d'alignement stratégique sur les tendances du marché. Simulé

Que sont le comte et le coude à Excel? - Analytique VidhyaApr 17, 2025 am 11:34 AM

Excel Counting and Analysis: Explication détaillée du nombre et des fonctions de compte Le comptage et l'analyse des données précises sont essentiels dans Excel, en particulier lorsque vous travaillez avec de grands ensembles de données. Excel fournit une variété de fonctions pour y parvenir, les fonctions Count et Count sont des outils clés pour compter le nombre de cellules dans différentes conditions. Bien que les deux fonctions soient utilisées pour compter les cellules, leurs cibles de conception sont ciblées sur différents types de données. Faisons des détails spécifiques du comptage et des fonctions de coude, mettons en évidence leurs caractéristiques et différences uniques et apprenez à les appliquer dans l'analyse des données. Aperçu des points clés Comprendre le nombre et le cou

Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Apr 17, 2025 am 11:29 AM

La révolution de l'IA de Google Chrome: une expérience de navigation personnalisée et efficace L'intelligence artificielle (IA) transforme rapidement notre vie quotidienne, et Google Chrome mène la charge dans l'arène de navigation Web. Cet article explore les exciti

Côté humain de l'AI: le bien-être et le quadruple de basApr 17, 2025 am 11:28 AM

Réinventuation d'impact: le quadruple bas Pendant trop longtemps, la conversation a été dominée par une vision étroite de l’impact de l’IA, principalement axée sur le résultat du profit. Cependant, une approche plus holistique reconnaît l'interconnexion de BU

5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaîtreApr 17, 2025 am 11:24 AM

Les choses évoluent régulièrement vers ce point. L'investissement affluant dans les prestataires de services quantiques et les startups montre que l'industrie comprend son importance. Et un nombre croissant de cas d'utilisation réels émergent pour démontrer sa valeur

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semainesByDDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.