Maison >Périphériques technologiques >IA >Equipe de l'Université de Pékin : Il suffit d'une chaîne de caractères tronqués pour provoquer l'« hallucination » d'un grand modèle ! Tous les alpagas, petits et grands, sont recrutés
Les derniers résultats de recherche de l'équipe de l'Université de Pékin montrent que :
des jetons aléatoires peuvent provoquer des hallucinations dans les grands modèles !
Par exemple, si un grand modèle (Vicuna-7B) reçoit un "code tronqué", il comprendra inexplicablement un mauvais sens historique
Même si quelques simples conseils de modification sont donnés, le grand modèle peut tomber dans un piège
Ces grands modèles populaires, tels que Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat et Vicuna-7B, rencontreront des situations similaires
Cela signifie, Les chaînes aléatoires peuvent contrôler de grands modèles pour produire du contenu arbitraire, « approuvant » les illusions.
Les résultats ci-dessus proviennent des dernières recherches menées par le groupe de recherche du professeur Yuan Li à l’Université de Pékin.
Cette étude propose :
Le phénomène d'hallucination des grands modèles est très probablement une autre perspective d'exemples contradictoires.
L'article montre non seulement deux méthodes qui peuvent facilement provoquer des hallucinations sur de grands modèles, mais propose également des méthodes de défense simples et efficaces Le code est open source.
La recherche a proposé deux méthodes d'attaque par hallucination :
Random Noise Attack (OoD Attack) :
Voici quelques résultats expérimentaux menés sur de grands modèles open source, d'autres résultats peuvent être trouvés dans des articles ou sur GitHub open source
Attaque sémantique faible ( Attaque sémantique faible) :
L'article présente la méthode d'attaque par hallucination :
Selon le diagramme, l'attaque par hallucination se compose des trois parties suivantes : construction d'un ensemble de données d'hallucination, attaque sémantique faible et attaque OoD
Le premier est la construction d'un ensemble de données sur les hallucinations.
L'auteur a obtenu la bonne réponse en rassemblant quelques questions courantes. Un ensemble de faits.
Enfin, nous pouvons obtenir le résultat de la construction de l'ensemble de données sur les hallucinations :
Vient ensuite la
partie d'attaque sémantique faible.
Premier échantillon d'une paire QA qui n'est pas cohérente avec les faits, en partant de l'illusion d'une stabilité future, l'auteur espère trouver un indice contradictoire pour maximiser la probabilité du journal.
où sont les paramètres du grand modèle et est l'espace d'entrée.
est composé de l jetons.
Cependant, le langage étant discontinu, il n'existe aucun moyen d'optimiser directement x à l'instar des attaques contradictoires dans le domaine de l'image.
Inspirée par une étude de 2019 (Universal Adversarial Triggers for Attacking and Analyzing NLP), l'équipe de recherche a utilisé une stratégie de remplacement de jetons basée sur un gradient pour maximiser indirectement la probabilité de journalisation.
Parmi eux, est l'intégration du jeton de compteur , et est un extracteur sémantique.
En regardant cette formule simplement, sous des contraintes sémantiques, trouvez les jetons qui font que le gradient de probabilité change le plus et remplacez-les Enfin, en vous assurant que l'indice contradictoire obtenu n'est pas trop sémantiquement différent de l'indice d'origine x, induit le modèle. pour produire des hallucinations prédéfinies .
Dans cet article, afin de simplifier le processus d'optimisation, le terme de contrainte est remplacé par .
La dernière partie est l'attaque OoD
Dans l'attaque OoD, nous partons d'une chaîne complètement aléatoire et maximisons la log-vraisemblance ci-dessus sans aucune contrainte sémantique.
Le document développe également le taux de réussite des attaques d'hallucinations sur différents modèles et différents modes
Discussion approfondie sur l'augmentation de la longueur de l'invite pour améliorer le taux de réussite de l'attaque (doublé)
Recherche. équipe Enfin, une stratégie de défense simple a été proposée, qui consiste à rejeter la réponse en utilisant l'entropie prédite par le premier jeton
La recherche provient de l'équipe du professeur Yuan Li de la Peking University Shenzhen Graduate School/School of Information Ingénierie.
Lien papier : https://arxiv.org/pdf/2310.01469.pdf
Adresse GitHub : https://github.com/PKU-YuanGroup/Hallucination-Attack
Message original de Zhihu
Le contenu qui doit être réécrit est : https://zhuanlan.zhihu.com/p/661444210 ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!