Le développement rapide de l’IA générative a créé des défis sans précédent en matière de confidentialité et de sécurité, déclenchant des appels urgents à une intervention réglementaire.
La semaine dernière, j'ai eu l'occasion de discuter des impacts de l'IA sur la sécurité avec certains membres du Congrès et leur personnel à Washington, D.C.
L’IA générative d’aujourd’hui me rappelle l’Internet de la fin des années 80, avec la recherche fondamentale, le potentiel latent et les utilisations académiques, mais elle n’est pas encore prête pour le public. Cette fois, l’ambition incontrôlée des fournisseurs, alimentée par le capital-risque des ligues mineures et inspirée par les chambres d’écho de Twitter, fait rapidement progresser le « meilleur des mondes » de l’IA.
Le modèle de base « public » est imparfait et inadapté à une utilisation grand public et commerciale ; les abstractions de confidentialité, si elles existent, fuient comme une passoire ; les structures de sécurité sont importantes car les surfaces d'attaque et les vecteurs de menace sont encore à comprendre. Quant aux garde-fous illusoires, moins on en dit, mieux c'est.
Alors, comment en sommes-nous arrivés là ? Qu’est-il arrivé à la sécurité et à la confidentialité ?
Le modèle de base du « compromis »
Le mode « Ouvert » présente parfois des limites. Différents fournisseurs annoncent leur degré d'ouverture via des pondérations en mode ouvert, l'accès à la documentation ou des tests. Pourtant, aucun des principaux fournisseurs ne fournit quoi que ce soit qui se rapproche de l'ensemble de données de formation ou de ses informations de manifeste ou de lignée pour pouvoir répliquer et reproduire leurs modèles.
Si vous souhaitez utiliser un ou plusieurs modèles pour entraîner un ensemble de données, alors vous, en tant que consommateur ou organisation, n'avez aucune possibilité de vérifier ou de confirmer l'étendue de la contamination des données, que ce soit en matière de propriété intellectuelle, de droit d'auteur, etc., ou comme contenu illégal.
Surtout, sans manifeste de l’ensemble de données de formation, il n’existe aucun moyen de vérifier ou de confirmer un contenu malveillant inexistant. Des acteurs malveillants, y compris des acteurs parrainés par l'État, implantent du contenu cheval de Troie sur le réseau qui, s'il est ingéré lors de la formation du modèle, entraîne des effets secondaires imprévisibles et potentiellement malveillants lors de l'inférence.
N'oubliez pas qu'une fois qu'un modèle est compromis, il n'y a aucun moyen de le faire oublier, la seule option est de le détruire.
Problèmes de sécurité « omniprésents »
Les modèles d’IA générative constituent le pot de miel sûr par excellence, car « toutes » les données sont ingérées dans un conteneur. De nouvelles catégories de vecteurs d'attaque sont apparues à l'ère de l'IA ; l'industrie n'a pas encore compris comment ces modèles sont protégés contre les cybermenaces et l'impact de la manière dont ces modèles peuvent être utilisés comme outils par les acteurs des cybermenaces.
Des techniques d'injection d'indices malveillantes peuvent être utilisées pour polluer les index ; l'empoisonnement des données peut être utilisé pour corrompre les pondérations ; l'ensemble de formation, etc., n'est que la pointe de l'iceberg.
Les acteurs malveillants peuvent accéder à des données confidentielles via une inversion de modèle et des requêtes programmatiques ; ils peuvent corrompre ou autrement influencer le comportement sous-jacent du modèle et, comme mentionné précédemment, une ingestion de données incontrôlée à grande échelle peut entraîner des menaces intégrées dans une cyberattaque parrainée par l'État ; activités, telles que les chevaux de Troie.
« Fuite » de confidentialité
Les modèles d’IA ne sont utiles qu’en raison des ensembles de données sur lesquels ils sont formés ; l’ingestion aveugle de données à grande échelle crée des risques sans précédent pour la vie privée des individus et du public. À l’ère de l’IA, la vie privée est devenue une préoccupation sociale ; les réglementations qui traitent principalement des droits en matière de données personnelles sont insuffisantes.
Outre les données statiques, les invites à des conversations dynamiques doivent également être protégées et conservées en tant que propriété intellectuelle. Si vous êtes un consommateur impliqué dans la co-création d'un artefact avec un modèle, vous espérez que les invites que vous utilisez pour guider cette activité de création ne seront pas utilisées pour entraîner le modèle ou partagées avec d'autres consommateurs de modèles.
Si vous êtes un employé utilisant le modèle pour obtenir des résultats commerciaux, votre employeur s'attend à ce que vos conseils soient confidentiels. De plus, les conseils et les réponses nécessitent une piste d'audit sécurisée au cas où des problèmes de responsabilité surviendraient pour l'une ou l'autre des parties. Cela est principalement dû à la nature stochastique de ces modèles et à l’évolution de leurs réponses au fil du temps.
Que se passe-t-il ensuite ?
Nous sommes confrontés à une technologie sans précédent, unique dans notre histoire informatique, dans la mesure où elle présente un comportement émergent et latent à grande échelle ; les méthodes utilisées dans le passé pour la sécurité, la confidentialité et la confidentialité ne sont plus adéquates.
Les dirigeants de l’industrie ont rejeté toute prudence, ne laissant aux régulateurs et aux décideurs politiques d’autre choix que d’intervenir.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!