Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

PHPz
PHPznach vorne
2023-10-30 14:53:101245Durchsuche

Die neuesten Forschungsergebnisse des Teams der Peking-Universität zeigen, dass:

zufällige Token bei großen Modellen Halluzinationen auslösen können!

Wenn beispielsweise einem großen Modell (Vicuna-7B) ein „verstümmelter Code“ zugewiesen wird, wird der historische gesunde Menschenverstand aus unerklärlichen Gründen missverstanden

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Selbst wenn einige einfache Änderungstipps gegeben werden, kann das große Modell in einen Fehler geraten eine Falle

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Diese beliebten großen Modelle, wie Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat und Vicuna-7B, werden auf ähnliche Situationen stoßen

Das heißt, Zufällige Zeichenfolgen können große Modelle so steuern, dass sie beliebige Inhalte ausgeben und so Illusionen „unterstützen“.

Die oben genannten Ergebnisse stammen aus der neuesten Forschung der Forschungsgruppe von Professor Yuan Li an der Peking-Universität.

Diese Studie schlägt vor:

Das Halluzinationsphänomen großer Modelle ist sehr wahrscheinlich

eine andere Perspektive kontradiktorischer Beispiele.

Das Papier zeigt nicht nur zwei Methoden, die leicht große Modellhalluzinationen hervorrufen können, sondern schlägt auch einfache und wirksame Abwehrmethoden vor.

Der Code ist Open Source. Zwei extreme Modi greifen große Modelle an.

Die Forschung hat zwei Halluzinationsangriffsmethoden vorgeschlagen:

Zufälliger Rauschangriff (OoD-Angriff) ist eine häufige Angriffsmethode auf Modelle des maschinellen Lernens. Bei diesem Angriff füttert der Angreifer das Modell mit zufälligem Rauschen, das in den Trainingsdaten nicht üblich ist. Dieses Rauschen kann die Urteilsfähigkeit des Modells beeinträchtigen und dazu führen, dass es bei der Verarbeitung von Daten aus der realen Welt fehlerhafte Vorhersagen trifft. Der zufällige Rauschangriff ist eine verdeckte Angriffsmethode, da er ähnliche Eigenschaften wie normale Daten verwendet und vom Modell nur schwer erkannt werden kann. Um diesem Angriff zu widerstehen, müssen einige wirksame Anomalieerkennungsmethoden verwendet werden, um diese zufälligen Geräusche zu identifizieren und herauszufiltern, d.
  • Weak Semantic Attack bezeichnet eine gängige Angriffsmethode im Internet. Bei dieser Angriffsmethode werden Benutzer typischerweise dazu verleitet, unwissentlich persönliche Informationen anzugeben oder böswillige Aktionen auszuführen. Im Vergleich zu anderen, direkteren Angriffsmethoden sind schwache semantische Angriffe subtiler und nutzen häufig Social Engineering und Täuschung, um Benutzer in die Irre zu führen. Internetnutzer sollten wachsam sein, um nicht von schwachen semantischen Angriffen betroffen zu werden, die dazu führen, dass große Modelle völlig andere illusorische Ausgaben erzeugen, während die ursprüngliche Semantik der Eingabeaufforderung im Wesentlichen unverändert bleibt.
Random Noise Attack

(OoD Attack): Im Folgenden sind einige experimentelle Ergebnisse aufgeführt, die an Open-Source-Großmodellen durchgeführt wurden. Weitere Ergebnisse finden Sie in Artikeln oder Open-Source-GitHub

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Weak Semantic Attack

( Schwacher semantischer Angriff):

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiertDer Artikel stellt die Methode des Halluzinationsangriffs vor:

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiertGemäß dem Diagramm besteht der Halluzinationsangriff aus den folgenden drei Teilen: Aufbau eines Halluzinationsdatensatzes, schwacher semantischer Angriff und OoD-Angriff

Das erste ist die

Halluzinationsdatensatzkonstruktion

. Der Autor hat die richtige Antwort erhalten, indem er einige häufig gestellte Fragen gesammelt hat. Eine Sammlung von Fakten.

Endlich können wir das Ergebnis der Konstruktion des Halluzinationsdatensatzes erhalten:

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Dann kommt der Teil des schwachen semantischen Angriffs.

Probieren Sie zunächst ein QA-PaarTeam der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert, das nicht mit den Fakten übereinstimmt. Ausgehend von der Illusion zukünftiger Stabilität hofft der Autor, einen kontroversen Hinweis zu findenTeam der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert, um die Protokollwahrscheinlichkeit zu maximieren. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

wobei

die Parameter des großen Modells und Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert der Eingaberaum sind. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

besteht aus l Token. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Da die Sprache jedoch diskontinuierlich ist, gibt es keine Möglichkeit, x wie gegnerische Angriffe im Bildfeld direkt zu optimieren.

Inspiriert durch eine Studie aus dem Jahr 2019 (Universal Adversarial Triggers for Attacking and Analyzing NLP) nutzte das Forschungsteam eine Gradienten-basierte Token-Ersetzungsstrategie, um indirekt die Log-Wahrscheinlichkeit zu maximieren.

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Darunter ist

die Einbettung des Zählertokens Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert und Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert ist ein semantischer Extraktor. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Wenn Sie diese Formel einfach unter semantischen Einschränkungen betrachten, finden Sie die Token, die den Wahrscheinlichkeitsgradienten am meisten ändern, und ersetzen Sie sie. Stellen Sie schließlich sicher, dass sich der erhaltene kontradiktorische Hinweis

semantisch nicht zu sehr vom ursprünglichen Hinweis x unterscheidet, und induzieren Sie das Modell um vordefinierte Halluzinationen auszugeben Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Um den Optimierungsprozess zu vereinfachen, wird in diesem Artikel der Einschränkungsbegriff stattdessen in

geändert. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Der letzte Teil ist der OoD-Angriff

Beim OoD-Angriff beginnen wir mit einer völlig zufälligen Zeichenfolge

und maximieren die oben genannte Log-Likelihood ohne semantische Einschränkungen. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Das Papier geht auch ausführlich auf die Angriffserfolgsrate von Halluzinationsattacken bei verschiedenen Modellen und verschiedenen Modi ein

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Eingehende Diskussion über die Verlängerung der Eingabeaufforderung zur Verbesserung der Angriffserfolgsrate (verdoppelt)

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Forschung Team Schließlich wurde eine einfache Verteidigungsstrategie vorgeschlagen, die darin besteht, die Antwort mithilfe der vom ersten Token vorhergesagten Entropie abzulehnen. Die Forschung stammt vom Team von Professor Yuan Li von der Peking University Shenzhen Graduate School/School of Information Maschinenbau.

Papierlink: https://arxiv.org/pdf/2310.01469.pdfTeam der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

GitHub-Adresse:

https://github.com/PKU-YuanGroup/Hallucination-Attack

Originalbeitrag von Zhihu

Der Inhalt, der neu geschrieben werden muss, ist: https://zhuanlan.zhihu.com/p/661444210?


Das obige ist der detaillierte Inhalt vonTeam der Peking-Universität: Alles, was es braucht, um die „Halluzination“ eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen