Heim >Technologie-Peripheriegeräte >KI >Team der Peking-Universität: Alles, was es braucht, um die „Halluzination' eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination' eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

PHPznach vorne: 2023-10-30 14:53:101419Durchsuche

Die neuesten Forschungsergebnisse des Teams der Peking-Universität zeigen, dass:

zufällige Token bei großen Modellen Halluzinationen auslösen können!

Wenn beispielsweise einem großen Modell (Vicuna-7B) ein „verstümmelter Code“ zugewiesen wird, wird der historische gesunde Menschenverstand aus unerklärlichen Gründen missverstanden

Selbst wenn einige einfache Änderungstipps gegeben werden, kann das große Modell in einen Fehler geraten eine Falle

Diese beliebten großen Modelle, wie Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat und Vicuna-7B, werden auf ähnliche Situationen stoßen

Das heißt, Zufällige Zeichenfolgen können große Modelle so steuern, dass sie beliebige Inhalte ausgeben und so Illusionen „unterstützen“.

Die oben genannten Ergebnisse stammen aus der neuesten Forschung der Forschungsgruppe von Professor Yuan Li an der Peking-Universität.

Diese Studie schlägt vor:

Das Halluzinationsphänomen großer Modelle ist sehr wahrscheinlich

eine andere Perspektive kontradiktorischer Beispiele.

Das Papier zeigt nicht nur zwei Methoden, die leicht große Modellhalluzinationen hervorrufen können, sondern schlägt auch einfache und wirksame Abwehrmethoden vor.

Der Code ist Open Source. Zwei extreme Modi greifen große Modelle an.

Die Forschung hat zwei Halluzinationsangriffsmethoden vorgeschlagen:

Zufälliger Rauschangriff (OoD-Angriff) ist eine häufige Angriffsmethode auf Modelle des maschinellen Lernens. Bei diesem Angriff füttert der Angreifer das Modell mit zufälligem Rauschen, das in den Trainingsdaten nicht üblich ist. Dieses Rauschen kann die Urteilsfähigkeit des Modells beeinträchtigen und dazu führen, dass es bei der Verarbeitung von Daten aus der realen Welt fehlerhafte Vorhersagen trifft. Der zufällige Rauschangriff ist eine verdeckte Angriffsmethode, da er ähnliche Eigenschaften wie normale Daten verwendet und vom Modell nur schwer erkannt werden kann. Um diesem Angriff zu widerstehen, müssen einige wirksame Anomalieerkennungsmethoden verwendet werden, um diese zufälligen Geräusche zu identifizieren und herauszufiltern, d.

Weak Semantic Attack bezeichnet eine gängige Angriffsmethode im Internet. Bei dieser Angriffsmethode werden Benutzer typischerweise dazu verleitet, unwissentlich persönliche Informationen anzugeben oder böswillige Aktionen auszuführen. Im Vergleich zu anderen, direkteren Angriffsmethoden sind schwache semantische Angriffe subtiler und nutzen häufig Social Engineering und Täuschung, um Benutzer in die Irre zu führen. Internetnutzer sollten wachsam sein, um nicht von schwachen semantischen Angriffen betroffen zu werden, die dazu führen, dass große Modelle völlig andere illusorische Ausgaben erzeugen, während die ursprüngliche Semantik der Eingabeaufforderung im Wesentlichen unverändert bleibt.

Random Noise Attack

(OoD Attack): Im Folgenden sind einige experimentelle Ergebnisse aufgeführt, die an Open-Source-Großmodellen durchgeführt wurden. Weitere Ergebnisse finden Sie in Artikeln oder Open-Source-GitHub

Weak Semantic Attack

( Schwacher semantischer Angriff):

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert Der Artikel stellt die Methode des Halluzinationsangriffs vor:

Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert Gemäß dem Diagramm besteht der Halluzinationsangriff aus den folgenden drei Teilen: Aufbau eines Halluzinationsdatensatzes, schwacher semantischer Angriff und OoD-Angriff

Das erste ist die

Halluzinationsdatensatzkonstruktion

. Der Autor hat die richtige Antwort erhalten, indem er einige häufig gestellte Fragen gesammelt hat. Eine Sammlung von Fakten.

Endlich können wir das Ergebnis der Konstruktion des Halluzinationsdatensatzes erhalten:

Dann kommt der Teil des schwachen semantischen Angriffs.

Probieren Sie zunächst ein QA-Paar Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert , das nicht mit den Fakten übereinstimmt. Ausgehend von der Illusion zukünftiger Stabilität hofft der Autor, einen kontroversen Hinweis zu finden Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert , um die Protokollwahrscheinlichkeit zu maximieren.

wobei

die Parameter des großen Modells und Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert der Eingaberaum sind.

besteht aus l Token. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Da die Sprache jedoch diskontinuierlich ist, gibt es keine Möglichkeit, x wie gegnerische Angriffe im Bildfeld direkt zu optimieren.

Inspiriert durch eine Studie aus dem Jahr 2019 (Universal Adversarial Triggers for Attacking and Analyzing NLP) nutzte das Forschungsteam eine Gradienten-basierte Token-Ersetzungsstrategie, um indirekt die Log-Wahrscheinlichkeit zu maximieren.

Darunter ist

die Einbettung des Zählertokens Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert und ist ein semantischer Extraktor.

Wenn Sie diese Formel einfach unter semantischen Einschränkungen betrachten, finden Sie die Token, die den Wahrscheinlichkeitsgradienten am meisten ändern, und ersetzen Sie sie. Stellen Sie schließlich sicher, dass sich der erhaltene kontradiktorische Hinweis

semantisch nicht zu sehr vom ursprünglichen Hinweis x unterscheidet, und induzieren Sie das Modell um vordefinierte Halluzinationen auszugeben Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert .

Um den Optimierungsprozess zu vereinfachen, wird in diesem Artikel der Einschränkungsbegriff stattdessen in

geändert. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Der letzte Teil ist der OoD-Angriff

Beim OoD-Angriff beginnen wir mit einer völlig zufälligen Zeichenfolge

und maximieren die oben genannte Log-Likelihood ohne semantische Einschränkungen. Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

Das Papier geht auch ausführlich auf die Angriffserfolgsrate von Halluzinationsattacken bei verschiedenen Modellen und verschiedenen Modi ein

Eingehende Diskussion über die Verlängerung der Eingabeaufforderung zur Verbesserung der Angriffserfolgsrate (verdoppelt)

Forschung Team Schließlich wurde eine einfache Verteidigungsstrategie vorgeschlagen, die darin besteht, die Antwort mithilfe der vom ersten Token vorhergesagten Entropie abzulehnen. Die Forschung stammt vom Team von Professor Yuan Li von der Peking University Shenzhen Graduate School/School of Information Maschinenbau.

Papierlink: https://arxiv.org/pdf/2310.01469.pdf Team der Peking-Universität: Alles, was es braucht, um die „Halluzination eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert

GitHub-Adresse:

https://github.com/PKU-YuanGroup/Hallucination-Attack

Originalbeitrag von Zhihu

Der Inhalt, der neu geschrieben werden muss, ist: https://zhuanlan.zhihu.com/p/661444210?

Das obige ist der detaillierte Inhalt vonTeam der Peking-Universität: Alles, was es braucht, um die „Halluzination' eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

for Token 字符串 github nlp https llama prompt embedding

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：NVIDIA eröffnet eine neue Ära: die „Perpetuum Mobile“ für RobotertrainingsdatenNächster Artikel：NVIDIA eröffnet eine neue Ära: die „Perpetuum Mobile“ für Robotertrainingsdaten

In Verbindung stehende Artikel

Mehr sehen