Heim > Artikel > Technologie-Peripheriegeräte > Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert
Die neuesten Forschungsergebnisse des Teams der Peking-Universität zeigen, dass:
zufällige Token bei großen Modellen Halluzinationen auslösen können!
Wenn beispielsweise einem großen Modell (Vicuna-7B) ein „verstümmelter Code“ zugewiesen wird, wird der historische gesunde Menschenverstand aus unerklärlichen Gründen missverstanden
Selbst wenn einige einfache Änderungstipps gegeben werden, kann das große Modell in einen Fehler geraten eine Falle
Diese beliebten großen Modelle, wie Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat und Vicuna-7B, werden auf ähnliche Situationen stoßen
Das heißt, Zufällige Zeichenfolgen können große Modelle so steuern, dass sie beliebige Inhalte ausgeben und so Illusionen „unterstützen“.
Die oben genannten Ergebnisse stammen aus der neuesten Forschung der Forschungsgruppe von Professor Yuan Li an der Peking-Universität. Diese Studie schlägt vor: Das Halluzinationsphänomen großer Modelle ist sehr wahrscheinlicheine andere Perspektive kontradiktorischer Beispiele.
Das Papier zeigt nicht nur zwei Methoden, die leicht große Modellhalluzinationen hervorrufen können, sondern schlägt auch einfache und wirksame Abwehrmethoden vor.Der Code ist Open Source. Zwei extreme Modi greifen große Modelle an.
(OoD Attack): Im Folgenden sind einige experimentelle Ergebnisse aufgeführt, die an Open-Source-Großmodellen durchgeführt wurden. Weitere Ergebnisse finden Sie in Artikeln oder Open-Source-GitHub
Weak Semantic Attack( Schwacher semantischer Angriff):
Der Artikel stellt die Methode des Halluzinationsangriffs vor:
Gemäß dem Diagramm besteht der Halluzinationsangriff aus den folgenden drei Teilen: Aufbau eines Halluzinationsdatensatzes, schwacher semantischer Angriff und OoD-Angriff
Das erste ist die
Halluzinationsdatensatzkonstruktion. Der Autor hat die richtige Antwort erhalten, indem er einige häufig gestellte Fragen gesammelt hat. Eine Sammlung von Fakten.
Endlich können wir das Ergebnis der Konstruktion des Halluzinationsdatensatzes erhalten:
Dann kommt der Teil des schwachen semantischen Angriffs.
Probieren Sie zunächst ein QA-Paar, das nicht mit den Fakten übereinstimmt. Ausgehend von der Illusion zukünftiger Stabilität hofft der Autor, einen kontroversen Hinweis zu finden, um die Protokollwahrscheinlichkeit zu maximieren.
wobeidie Parameter des großen Modells und der Eingaberaum sind.
besteht aus l Token.
Da die Sprache jedoch diskontinuierlich ist, gibt es keine Möglichkeit, x wie gegnerische Angriffe im Bildfeld direkt zu optimieren. Inspiriert durch eine Studie aus dem Jahr 2019 (Universal Adversarial Triggers for Attacking and Analyzing NLP) nutzte das Forschungsteam eine Gradienten-basierte Token-Ersetzungsstrategie, um indirekt die Log-Wahrscheinlichkeit zu maximieren.Darunter ist
die Einbettung des Zählertokens und ist ein semantischer Extraktor.
Wenn Sie diese Formel einfach unter semantischen Einschränkungen betrachten, finden Sie die Token, die den Wahrscheinlichkeitsgradienten am meisten ändern, und ersetzen Sie sie. Stellen Sie schließlich sicher, dass sich der erhaltene kontradiktorische Hinweissemantisch nicht zu sehr vom ursprünglichen Hinweis x unterscheidet, und induzieren Sie das Modell um vordefinierte Halluzinationen auszugeben .
Um den Optimierungsprozess zu vereinfachen, wird in diesem Artikel der Einschränkungsbegriff stattdessen ingeändert.
Der letzte Teil ist der OoD-AngriffBeim OoD-Angriff beginnen wir mit einer völlig zufälligen Zeichenfolgeund maximieren die oben genannte Log-Likelihood ohne semantische Einschränkungen.
Das Papier geht auch ausführlich auf die Angriffserfolgsrate von Halluzinationsattacken bei verschiedenen Modellen und verschiedenen Modi ein Eingehende Diskussion über die Verlängerung der Eingabeaufforderung zur Verbesserung der Angriffserfolgsrate (verdoppelt) Forschung Team Schließlich wurde eine einfache Verteidigungsstrategie vorgeschlagen, die darin besteht, die Antwort mithilfe der vom ersten Token vorhergesagten Entropie abzulehnen. Die Forschung stammt vom Team von Professor Yuan Li von der Peking University Shenzhen Graduate School/School of Information Maschinenbau.Papierlink: https://arxiv.org/pdf/2310.01469.pdf
GitHub-Adresse:https://github.com/PKU-YuanGroup/Hallucination-Attack
Originalbeitrag von Zhihu
Der Inhalt, der neu geschrieben werden muss, ist: https://zhuanlan.zhihu.com/p/661444210?
Das obige ist der detaillierte Inhalt vonTeam der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!