Maison  >  Article  >  Périphériques technologiques  >  Pourquoi GPT-4P est-il vulnérable aux attaques d'images par injection d'indices multimodales ?

Pourquoi GPT-4P est-il vulnérable aux attaques d'images par injection d'indices multimodales ?

WBOY
WBOYavant
2023-10-30 15:21:171349parcourir

La nouvelle version GPT-4V d'OpenAI prend en charge le téléchargement d'images, ce qui apporte une nouvelle voie d'attaque, rendant les grands modèles de langage (LLM) vulnérables aux attaques d'images par injection multimodale. Les attaquants peuvent intégrer des commandes, des scripts malveillants et du code dans des images, auxquelles le modèle se conforme ensuite.

Les attaques d'images par injection d'invite multimodales peuvent divulguer des données, rediriger des requêtes, générer des messages d'erreur et exécuter des scripts plus complexes pour redéfinir la façon dont LLM interprète les données. Ils peuvent réutiliser les LLM pour ignorer les garde-fous de sécurité précédemment érigés et exécuter des commandes susceptibles de compromettre l'organisation, posant des menaces allant de la fraude au sabotage opérationnel.

Toutes les entreprises qui utilisent LLM dans le cadre de leur flux de travail sont confrontées à des difficultés, mais celles qui utilisent LLM comme cœur de leur activité pour l'analyse et la classification d'images sont confrontées au plus grand risque. Les attaquants utilisant diverses techniques peuvent rapidement modifier la façon dont les images sont interprétées et classées, conduisant à des résultats plus confus.

Lorsque les invites de LLM sont écrasées, les commandes malveillantes et les scripts exécutés sont plus susceptibles d'être ignorés. Les attaquants peuvent commettre des fraudes et des sabotages opérationnels en intégrant des commandes dans une série d'images téléchargées sur LLM, et peuvent également faciliter les attaques d'ingénierie sociale

Les images sont un vecteur d'attaque contre lequel LLM ne peut pas se défendre

En raison de l'incapacité de LLM à s'en protéger pendant son traitement Il n'y a pas d'étape de nettoyage des données, donc chaque image n'est pas fiable. Tout comme il est très dangereux de laisser les identités circuler librement sur le réseau sans contrôle d'accès à chaque ensemble de données, applications ou ressources, il existe également des dangers pour les images téléchargées dans LLM

Situations où les entreprises ont un LLM privé Dans cette situation, accès au moindre privilège doit être adopté comme stratégie de sécurité du réseau central

Simon Willison a récemment expliqué en détail dans un article de blog pourquoi GPT-4V est devenu le principal canal pour les attaques par injection rapide, et a souligné que LLM est fondamentalement facile à tromper. Lien vers l'article de blog : https://simonwillison.net/2023/Oct/14/multi-modal-prompt-injection/

Willison montre comment détourner des agents d'intelligence artificielle autonomes, tels qu'Auto-GPT, grâce à une injection rapide. Il explique en détail un exemple simple d'injection de repères visuels qui commence par l'intégration d'une commande dans une seule image et se développe progressivement en une attaque de pénétration par injection de repères visuels

Paul Ekwere, directeur principal de l'analyse des données et de l'intelligence artificielle chez BDO UK, a déclaré : "Injection attaque Cela constitue une menace sérieuse pour la sécurité et la fiabilité du LLM, en particulier pour les modèles basés sur la vision qui traitent des images ou des vidéos. Ces modèles sont largement utilisés dans des domaines tels que la reconnaissance faciale, la conduite autonome, le diagnostic médical et la surveillance »

. OpenAI n’existe actuellement aucune solution pour les attaques multimodales d’images par injection rapide, laissant les utilisateurs et les entreprises livrés à eux-mêmes. Un article de blog sur le site des développeurs de Nvidia (https://developer.nvidia.com/blog/mitigating-stored-prompt-injection-attacks-against-llm-applications/) fournit quelques recommandations, notamment pour tout le stockage de données et le système applique accès au moindre privilège

Comment fonctionne l'attaque d'image par injection d'invite multimodale

L'attaque par injection d'invite multimodale exploite une vulnérabilité dans le traitement des images visuelles par GPT-4V pour exécuter des commandes malveillantes non détectées, GPT-4V s'appuie sur un visuel un encodeur de transformation pour convertir les images en représentations spatiales latentes, et les données d'image et de texte sont combinées pour générer des réponses.

Le modèle n'a aucun moyen de nettoyer l'entrée visuelle avant l'encodage. Un attaquant peut intégrer n'importe quel nombre de commandes et GPT-4 les considérera comme des commandes légitimes. Un attaquant qui effectue automatiquement une attaque multimodale par injection d’indices sur un LLM privé passerait inaperçu.

Contenir les attaques d'images injectées

Le problème troublant de ce vecteur d'attaque d'images non protégé est qu'un attaquant peut rendre les données entraînées par LLM moins fiables au fil du temps. La fidélité des données diminuera également progressivement.

Un document de recherche récent (https://arxiv.org/pdf/2306.05499.pdf) fournit des lignes directrices sur la façon de mieux protéger LLM contre les attaques par injection d'indices. Pour déterminer l'étendue du risque et les solutions potentielles, l'équipe de chercheurs a mené une série d'expériences conçues pour évaluer l'efficacité des attaques par injection contre les applications intégrant LLM. L'équipe de recherche a découvert que 31 applications intégrant LLM sont vulnérables aux attaques par injection

Le document de recherche formule les recommandations suivantes pour limiter les attaques par image par injection :

Amélioration de la propreté des entrées utilisateur et des procédures de validation

Pour les applications privées Pour les entreprises qui poursuivent la normalisation dans LLM, la gestion des accès aux identités (IAM) et l'accès au moindre privilège sont des configurations de base. Les fournisseurs de LLM doivent envisager d'effectuer un nettoyage plus approfondi avant de transmettre les données d'image pour traitement

Ce qui doit être réécrit est : 2. Améliorer l'architecture de la plate-forme et séparer les entrées utilisateur de la logique du système

L'objectif devrait être d'éliminer le risque que les entrées utilisateur affectent directement le code et les données LLM. Tous les signaux d'image doivent être traités de manière à ne pas avoir d'impact sur la logique interne ou le flux de travail.

Utilisez un flux de traitement en plusieurs étapes pour identifier les attaques malveillantes

Nous pouvons créer un processus en plusieurs étapes pour détecter rapidement les attaques basées sur des images afin de mieux gérer cette menace

4. Personnalisez les conseils de défense pour éviter les jailbreaks

Le jailbreak est un processus efficace. Une technique d'ingénierie d'indices courante utilisée pour inciter LLM à effectuer des actions illégales. Joindre des indices à une entrée d'image d'apparence malveillante peut aider à protéger LLM. Toutefois, les chercheurs préviennent que les attaques avancées peuvent encore contourner cette approche.

Une menace qui prend de l'ampleur

Alors que de plus en plus de LLM évoluent vers des modèles multimodaux, les images deviennent le dernier vecteur de menace sur lequel les attaquants peuvent s'appuyer pour contourner et redéfinir les mesures de protection. Les attaques basées sur des images varient en gravité, allant de simples commandes à des scénarios d'attaque plus complexes conçus pour causer des dommages industriels et diffuser des informations erronées à grande échelle

Cet article provient de : https://venturebeat com/security/why-gpt-4-is-. vulnérable aux attaques d'images par injection d'invite multimodale/. Si vous devez réimprimer, veuillez indiquer la source

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer