Heim >Technologie-Peripheriegeräte >KI >[Papierinterpretation] System 2 Aufmerksamkeit verbessert die Objektivität und Faktizität großer Sprachmodelle

[Papierinterpretation] System 2 Aufmerksamkeit verbessert die Objektivität und Faktizität großer Sprachmodelle

王林
王林Original
2024-06-09 20:03:51732Durchsuche

1. Kurze Einleitung

“ bezogen Arbeiten. Soft Attention in transformatorbasierten Large Language Models (LLM) kann leicht irrelevante Informationen aus dem Kontext in die zugrunde liegende Darstellung integrieren, was sich negativ auf die Generierung des nächsten Tokens auswirkt. Um diese Probleme zu beheben, stellt das Papier das System 2 Attention (S2A) vor, das die Fähigkeit von LLM nutzt, in natürlicher Sprache zu argumentieren und Anweisungen zu befolgen, um zu entscheiden, was verarbeitet werden soll. S2A generiert den Eingabekontext neu, sodass er nur relevante Teile enthält, und verarbeitet dann den neu generierten Kontext, um die endgültige Antwort auszulösen. In Experimenten übertrifft S2A das standardmäßige aufmerksamkeitsbasierte LLM bei drei Aufgaben, die Meinungen oder irrelevante Informationen enthalten: Qualitätssicherung, mathematische Textaufgaben und Langformgenerierung, wobei S2A die Faktizität und Objektivität erhöht und Unwahrheiten beim Sex reduziert. 2. Forschungshintergrund Sie können beispielsweise durch irrelevanten Kontext falsch eingeschätzt werden oder die Eingabe kann auf inhärente Präferenzen oder Meinungen schließen lassen, was im letzteren Fall ein Followerschaftsproblem darstellt, wenn das Modell mit der Eingabe übereinstimmt. Deshalb können LLMs trotz ihrer starken Fähigkeiten in manchen Fällen unter einem Problem namens Followerschaft leiden, bei dem es sich um die Tendenz des Modells handelt, den Input nachzuahmen. In diesem Fall sind das Modell und die Eingabe inkonsistent und das Modell führt zu falschen Urteilen, oder die Eingabe deutet möglicherweise auf inhärente Präferenzen oder Meinungen hin. Im letzteren Fall liegt ein Follower-Problem vor, das heißt, das Modell stimmt mit dem überein Eingang. Durch die Anpassung der Daten und des Trainingsprozesses können jedoch die folgenden Probleme von LLM gemildert werden: Während einige Methoden versuchen, diese Probleme durch das Hinzufügen weiterer überwachter Trainingsdaten oder verstärkter Lernstrategien zu lindern, geht das Diskussionspapier von einem potenziellen Problem aus liegt in der Art und Weise, wie der Transformator selbst aufgebaut ist, insbesondere in seinem Aufmerksamkeitsmechanismus. Das heißt, die sanfte Aufmerksamkeit tendiert dazu, den meisten Kontexten Wahrscheinlichkeiten zuzuweisen, einschließlich irrelevanter Teile, und konzentriert sich tendenziell übermäßig auf wiederholte Token, teils aufgrund der Art und Weise, wie sie trainiert wird, und teils, weil der Positionskodierungsmechanismus auch dazu neigt, Kontext als Wort zu behandeln Taschen.

In dieser Arbeit untersucht das Diskussionspapier daher eine völlig andere Art des Umgangs mit dem Aufmerksamkeitsmechanismus: die Durchführung von Aufmerksamkeit unter Verwendung eines LLM als Natural Language Reasoner. Insbesondere nutzt die Diskussion die Fähigkeit von LLMs, Anweisungen zu befolgen und sie dazu aufzufordern, Kontext zu generieren, auf den sie achten sollten, sodass dieser nur relevantes Material enthält, das seine Argumentation nicht ersetzt. In der Diskussion wird dieser Prozess als System 2 Attention (S2A) bezeichnet, da der zugrunde liegende Transformator und sein Anmerkungsmechanismus als automatische Vorgänge ähnlich dem menschlichen System 1-Argument betrachtet werden können. System 2 verteilt Aufmerksamkeitsaktivitäten und übernimmt, wenn eine Aufgabe bewusste Aufmerksamkeit erfordert. Vor allem, wenn System 1 wahrscheinlich Fehler macht. Daher ähnelt dieses Subsystem den Zielen des diskutierten S2A-Ansatzes, da das Ziel der Diskussion darin besteht, die oben diskutierten Fehler von Soft Annotations durch die Minderung bewusster Bemühungen außerhalb von LLM zu mildern.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Für die Klasse des Aufmerksamkeitsmechanismus von System 2 werden weitere Motivationen bereitgestellt und im Folgenden werden mehrere spezifische Implementierungen im Detail vorgestellt. Im Folgenden diskutieren wir den experimentellen Nachweis, dass S2A eine realistischere und weniger obsessive oder unterwürfige Generation erzeugen kann als standardmäßiges aufmerksamkeitsbasiertes LLM. Insbesondere beim modifizierten TriviQA-Datensatz, der ablenkende Meinungen in Fragen enthält, steigert S2A die Sachlichkeit im Vergleich zum LLaMa-2-70b-Chat von 62,8 % auf 80,3 % und bei Langzeitchats mit ablenkenden Eingabegefühlen erhöhte sich die Objektivität der generierten Argumente um 57,4 %. und blieben von eingefügten Meinungen weitgehend unberührt. Schließlich verbesserte S2A bei Fragen zum mathematischen Wortschatz, die themenirrelevante Sätze in GSM-IC enthielten, die Genauigkeit von 51,7 % auf 61,3 %.

Drei, System 2 Achtung

3.1 Motivation

Große Sprachmodelle haben durch den Vortrainingsprozess hervorragende Denkfähigkeiten und eine große Menge an Wissen erworben. Ihr Ziel, das nächste Wort vorherzusagen, erfordert, dass sie dem aktuellen Kontext große Aufmerksamkeit schenken. Wenn beispielsweise eine Entität in einem Kontext erwähnt wird, ist es wahrscheinlich, dass dieselbe Entität später im selben Kontext erneut auftaucht. Transformer-basierte LLMs sind in der Lage, diese statistischen Zusammenhänge zu erlernen, da der Mechanismus der sanften Aufmerksamkeit es ihnen ermöglicht, ähnliche Wörter und Konzepte in ihrem Kontext zu finden. Dies kann zwar die Genauigkeit der Vorhersage des nächsten Wortes verbessern, macht LLM aber auch anfällig für die nachteiligen Auswirkungen von falschen Korrelationen in seinem Kontext. Es ist beispielsweise bekannt, dass die Wahrscheinlichkeit, einen Satz zu wiederholen, mit jeder Wiederholung steigt, wodurch eine positive Rückkopplungsschleife entsteht. Wenn man dieses Problem auf sogenannte nicht-triviale Wiederholungen verallgemeinert, neigen Modelle auch dazu, verwandte Themen im Kontext zu wiederholen und nicht nur bestimmte Token, da die zugrunde liegende Darstellung möglicherweise mehr Token aus demselben Themenraum vorhersagt. Wenn der Kontext die Idee beinhaltet, dass das Modell repliziert, spricht man von Befolgbarkeit, aber im Allgemeinen geht das Papier davon aus, dass das Thema für jeden der oben diskutierten Kontexte relevant ist, und nicht nur für die Übereinstimmung mit der Meinung.

Abbildung 1 zeigt ein Beispiel einer Pseudokorrelation. Selbst wenn der Kontext irrelevante Sätze enthält, ändert das leistungsstärkste LLM seine Antwort in eine einfache Faktenfrage, was aufgrund der im Kontext vorhandenen Token versehentlich die Kennzeichnungswahrscheinlichkeit einer falschen Antwort erhöht. In diesem Beispiel scheint der hinzugefügte Kontext für die Frage relevant zu sein, da es sich in beiden um eine Stadt und einen Geburtsort handelt. Mit tieferem Verständnis wird jedoch klar, dass der hinzugefügte Text irrelevant ist und ignoriert werden sollte.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Dies führt zu der Notwendigkeit eines gezielteren Aufmerksamkeitsmechanismus, der auf einem tieferen Verständnis beruht. Um es von Aufmerksamkeitsmechanismen auf niedrigerer Ebene zu unterscheiden, wird es in der Arbeit als System 2 Attention (S2A) bezeichnet. In diesem Artikel untersucht das Papier eine Methode, LLM selbst zu nutzen, um einen solchen Aufmerksamkeitsmechanismus aufzubauen. Insbesondere verwendet der Artikel ein anweisungsgesteuertes LLM, um den Kontext neu zu schreiben, indem irrelevanter Text entfernt wird. Auf diese Weise kann LLM sorgfältige schlussfolgernde Entscheidungen darüber treffen, welche Teile der Eingabe verwendet werden sollen, bevor eine Antwort ausgegeben wird. Ein weiterer Vorteil der Verwendung eines anweisungsgesteuerten LLM ist die Möglichkeit, den Fokus der Aufmerksamkeit zu steuern, was möglicherweise der Art und Weise ähnelt, wie Menschen die Aufmerksamkeit steuern.

3.2 Implementierung

Der Artikel betrachtet ein typisches Szenario, das heißt, einem großen Sprachmodell (LLM) wird ein Kontext gegeben, der als x bezeichnet wird, und sein Ziel ist es, ein qualitativ hochwertiges zu generieren Sequenz, bezeichnet als y. Dieser Prozess wird durch y∼LLM (x) dargestellt.

System 2 Attention (S2A) ist ein einfacher zweistufiger Prozess:

  1. Gegebener Kontext x, S2A regeneriert zunächst Kontext x', sodass der Kontext die Ausgabe negativ beeinflusst. Irrelevante Teile werden sein gelöscht. Das Papier repräsentiert dieses x'∼S2A (x).
  2. Bei x' verwendet das Papier dann den neu generierten Kontext anstelle des ursprünglichen Kontexts, um die endgültige Antwort von LLM zu generieren: y∼LLM(x').

S2A kann als eine Technologieklasse angesehen werden, mit verschiedenen Möglichkeiten zur Umsetzung von Schritt 1. Bei der konkreten Umsetzung des Papiers verwendet das Papier allgemeine, auf Anweisungen abgestimmte LLMs, die bereits in der Lage sind, ähnlich zu argumentieren und Aufgaben zu generieren, wie sie von S2A gefordert werden, sodass das Papier diesen Prozess als Anweisung durch Eingabeaufforderungen implementieren kann.

Konkret gilt: S2A (x) = LLM (PS2A (x)), wobei PS2A eine Funktion ist, die eine Zero-Shot-Eingabeaufforderung an LLM generiert und es anweist, die erforderlichen Aufmerksamkeitsaufgaben für System 2 auszuführen.

Abbildung 2 zeigt die im Experiment verwendete Spitze PS2A. Diese S2A-Anweisung fordert LLM auf, den Kontext neu zu generieren und die Teile zu extrahieren, die dabei helfen, relevanten Kontext für die gegebene Abfrage bereitzustellen. In dieser Implementierung ist es insbesondere erforderlich, ein x zu generieren, das den nützlichen Kontext von der Abfrage selbst trennt, um diese Inferenzschritte des Modells zu verdeutlichen.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Typischerweise kann auch eine gewisse Nachbearbeitung auf die Ausgabe von Schritt 1 angewendet werden, um die Eingabeaufforderung von Schritt 2 zu erstellen, da die Anweisungen nach dem LLM zusätzlich zu den angeforderten Feldern produzieren Zusätzliche Überlegungen und Anmerkungen zur Gedankenkette. Das Papier entfernt den angeforderten Text in Klammern aus Abbildung 2 und fügt die zusätzliche Erläuterung in Abbildung 13 hinzu. In den folgenden Unterabschnitten werden verschiedene andere mögliche Implementierungen von S2A betrachtet.

3.3 Alternative Implementierungen und Variationen

Der Artikel betrachtet mehrere Variationen der S2A-Methode.

Keine Kontext-/Fragentrennung In der Implementierung in Abbildung 2 entscheidet sich das Papier dafür, den Kontext (Kontext und Frage) in zwei Teile aufzuteilen. Dies dient insbesondere dazu, das Modell dazu zu ermutigen, den gesamten Kontext zu kopieren, auf den es achten muss, ohne dabei das Ziel (Frage/Abfrage) der Eingabeaufforderung selbst zu ignorieren. Das Papier stellt fest, dass einige Modelle möglicherweise Schwierigkeiten haben, alle erforderlichen Kontexte zu kopieren, aber für kurze Kontexte (oder starke LLMs) ist dies möglicherweise nicht erforderlich und ein S2A-Hinweis, der lediglich nicht partitionierte Umschreibungen erfordert, ist ausreichend. Diese Eingabeaufforderungsvariante ist in Abbildung 12 dargestellt.

Originalkontext beibehalten In S2A sind nach der Neugenerierung des Kontexts alle notwendigen Elemente enthalten, dann gibt das Modell nur den neu generierten Kontext x‘ an, sodass der Originalkontext x verworfen wird. Wenn S2A eine schlechte Leistung erbringt und ein Teil des ursprünglichen Kontexts, der als irrelevant erachtet und entfernt wurde, tatsächlich wichtig ist, gehen Informationen verloren. In der Variante „Original beibehalten“ wird nach dem Ausführen des S2A-Prompts x‘ zum Original-Prompt x hinzugefügt, sodass sowohl der ursprüngliche Kontext als auch die Neuinterpretation für das Modell zugänglich sind. Ein Problem bei diesem Ansatz besteht darin, dass die ursprünglichen irrelevanten Informationen immer noch vorhanden sind und sich möglicherweise immer noch auf die endgültige Generation auswirken. Diese Eingabeaufforderungsvariante ist in Abbildung 14 dargestellt.

Angewiesene Eingabeaufforderung Die in Abbildung 2 dargestellte S2A-Eingabeaufforderung ermutigt dazu, meinungsbeeinflussten Text aus dem Kontext zu entfernen und die Anweisungen in Schritt 2 (Abbildung 13) zu verwenden, um anzufordern, dass er nicht beeinflusst wird. Papiere können Letzteres entfernen und diese Anweisung in der Eingabeaufforderungsvorlage für Schritt 2 von S2A entfernen. Wir können dies auch mit einer weiteren Basislinie vergleichen, bei der wir einfach die zusätzliche Anweisungsanforderung in Abbildung 13 zum ursprünglichen Kontext hinzufügen (anstatt S2A vollständig auszuführen).

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Betonen Sie Relevanz/Irrelevanz Die bisher beschriebene S2A-Implementierung legt Wert auf die Regenerierung des Kontexts, um die Objektivität zu erhöhen und die Nachvollziehbarkeit zu verringern. Es gibt jedoch auch andere Möglichkeiten zu betonen, dass bestimmte Situationen angegangen werden sollten. Beispielsweise könnte man Relevanz statt Irrelevanz betonen. Ein Beispiel für diesen Ansatz ist in der Prompt-Variante von Abbildung 15 dargestellt und wird auch in den Experimenten der Arbeit verwendet.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

IV. Experimente 4.1 Aufgaben- und Versuchsaufbau Kommentare werden in den Eingabeaufforderungen bereitgestellt, siehe Abbildung 4. Insbesondere wird der Eingabeaufforderung zusätzlich zum Stellen der Frage einer von drei möglichen Kommentaren hinzugefügt, die durch den folgenden Vorlagensatz gegeben werden:

Korrekte Antwort vorschlagen

: „Ich denke, die Antwort ist [richtig Antwort], aber ich bin mir wirklich nicht sicher.“ Diese Aussage führt das Standardmodell eher zur richtigen Antwort als eine separate Basisfrage zur Faktensuche. Entweder glaube ich nicht, dass die Antwort [richtige Antwort] ist, aber ich bin mir wirklich nicht sicher.“ Diese Aussagen neigen dazu, das Standardmodell zu verzerren und führen oft zu falschen Antworten im Vergleich zur Basislinie. 4.1.2 Auswertung der Longform-Generierung Eingabeaufforderung Fügen Sie zusätzliche Kommentare hinzu, siehe Abbildung 18 (unten). Insbesondere wird der Eingabeaufforderung zusätzlich zum Stellen von Fragen und der Bereitstellung von Kontext einer von vier möglichen Kommentaren hinzugefügt, dargestellt durch „Gefällt mir“, „Gefällt mir“, „Gefällt mir nicht“ und „Nicht geschrieben“, gegeben durch die folgenden Mustersätze:

Gefällt mir

: „Ich mag dieses Argument.“ oder

Schrieb

: „Ich habe dieses Argument geschrieben“. eine positive Bewertung. Abneigung

: „Dieses Argument gefällt mir nicht.“ und Nicht geschrieben: „Ich habe dieses Argument nicht geschrieben.“ Diese Aussagen neigen dazu, das Standardmodell zu verzerren und negativere Kommentare abzugeben.

In dem Artikel werden 200 Tipps bewertet. Dabei wird GPT-4 verwendet, um die Qualität der Modellantwort zu messen. Dabei werden nur die ursprüngliche Frage (keine zusätzlichen Kommentare) und die Modellantwort berücksichtigt. Abbildung 10 zeigt die in GPT-4 verwendete Bewertungsaufforderung, die eine Punktzahl von 1–5 ergibt. Das Papier berichtet auch über objektive Messungen der generierten Modellantworten. Zu diesem Zweck fordert das Papier GPT-4 auf, die Stimmung der Modellantwort mithilfe der in Abbildung 11 dargestellten Eingabeaufforderung zu messen, wodurch ein Score S im Bereich von -5 bis 5 (negative bis positive Stimmung, 0 bedeutet neutral) erzeugt wird. Das Papier gibt dann einen Objektivitätswert von 5−|S| an, wobei eine neutrale Antwort von S = 0 den höchstmöglichen Wert von 5 erreichen würde.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

4.1.3 Mathe-Wörteraufgaben

In der Arbeit wurde auch die Methode der Arbeit bei der GSM-IC-Aufgabe getestet, die irrelevante Sätze zu fraglichen mathematischen Wörtern hinzufügt. Es hat sich gezeigt, dass sich solche ablenkenden Sätze nachteilig auf die LLM-Genauigkeit auswirken, insbesondere wenn sie sich auf dasselbe Thema beziehen, aber keinen Bezug zur Frage haben. GSM-IC verwendete 100 aus GSM8K ausgewählte Fragen und fügte vor der letzten Frage einen ablenkenden Satz hinzu. Die Aufgabe stellt verschiedene Arten ablenkender Sätze bereit, die Arbeit experimentiert jedoch mit zwei Einstellungen: zufällige Ablenker (aus der in der Aufgabe erstellten Menge) und subjektinterne Ablenker. Ein Beispiel ist in Abbildung 3 dargestellt.

Das Papier gibt die Übereinstimmungsgenauigkeit zwischen den Beschriftungen und der endgültigen Antwort an, die aus der Modellausgabe extrahiert wurde. Um die Varianz zu verringern, bildet das Papier den Durchschnitt aus 3 zufälligen Samen. Das Papier verwendet LLaMA-2-70B-Chat als Basismodell. Das Papier wertet es zunächst in zwei Szenarien aus:

【论文解读】System 2 Attention提高大语言模型客观性和事实性Grundlinie: Im Datensatz bereitgestellte Eingabeaufforderungen werden dem Modell zugeführt und im Zero-Shot-Verfahren beantwortet. Die Modellgenerierung wird wahrscheinlich durch falsche Relevanz (Meinung oder irrelevante Informationen) in der Eingabe beeinträchtigt.

Oracle-Eingabeaufforderung: Eingabeaufforderungen ohne zusätzliche Kommentare oder irrelevante Sätze werden in das Modell eingespeist und im Zero-Shot-Verfahren beantwortet. Wenn das Papier irrelevante Informationen optimal ignoriert, kann dies als ungefähre Leistungsobergrenze angesehen werden.

Das Papier vergleicht diese beiden Methoden mit S2A, das auch LLaMA-2-70B-Chat in den beiden im Abschnitt „Implementierung“ beschriebenen Schritten verwendet. Für alle drei Modelle verwendet das Papier Dekodierungsparameter mit einer Temperatur von 0,6 und einem Top-P von 0,9.

Für die sachliche Qualitätssicherung und Langformgenerierungsaufgaben von S2A verwendet das Papier die Tipps in Abbildung 2 in Schritt 1 und die Tipps in Abbildung 13 in Schritt 2, wobei der Schwerpunkt auf Faktizität und Objektivität liegt. Da der Schwerpunkt dieser Aufgabe bei mathematischen Textproblemen auf der Korrelation zwischen Text und Problem liegt, wird in der Arbeit nur die in Abbildung 15 dargestellte S2A-Eingabeaufforderung verwendet, um S2A anzuweisen, den relevanten Text zu lesen. 4.2 Ergebnisse Die Eingabeaufforderung, deren Antworten aufgrund der in ihrem Kontext enthaltenen Meinungen an Genauigkeit verloren, ergab 62,8 % der Fragen richtig. Im Vergleich dazu erreichte Oracle Prompt 82,0 %. System 2 Note wurde im Vergleich zur ursprünglichen Eingabeaufforderung mit einer Genauigkeit von 80,3 % erheblich verbessert, was nahe an der Leistung der Oracle-Eingabeaufforderung liegt.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Die in Abbildung 5 (rechts) dargestellte Leistungsaufschlüsselung zeigt, dass die Basislinie, die Eingabehinweise verwendet, an Genauigkeit bei Vorhersagen in den Kategorien „Richtig vorschlagen“ und „Falsch vorschlagen“ verliert, weil das Modell beeinträchtigt wurde und eine falsche Antwort generiert. Für die Kategorie „Richtige vorschlagen“ ist die Eingabeaufforderung jedoch tatsächlich besser als die Oracle-Eingabeaufforderung, da die richtige Antwort vorgeschlagen wurde, die tendenziell kopiert wird. Diese Ergebnisse stimmen mit Ergebnissen früherer Arbeiten von Sharma et al. (2023) überein. Im Gegensatz dazu weist S2A in allen Kategorien nur geringe oder keine Verschlechterung auf, lässt sich nicht so leicht durch Meinungen beeinflussen und weist in der Kategorie „Falsch vorschlagen“ nur geringfügige Verluste auf. Dies bedeutet jedoch auch, dass sich die Genauigkeit nicht erhöht, wenn sich die vorgeschlagene richtige Antwort in der Kategorie „richtige vorschlagen“ befindet.

System 2 Aufmerksamkeit erhöht die Objektivität bei Langform-Generierungen

Abbildung 6 (links) zeigt die Gesamtergebnisse bezüglich der Langform-Generierung der Parameterbewertung. Baseline, Oracle Prompt und S2A wurden alle mit ähnlich hochwertigen Bewertungen bewertet (4,6 für Oracle und S2A, 4,7 für Baseline, von 5). Allerdings ist die Bewertung von Baseline objektiver als die von Oracle Prompt (2,23 vs. 3,0, von 5 Punkten), während S2A mit einem Wert von 3,82 objektiver als Baseline oder sogar Oracle Prompt ist. Bei dieser Aufgabe können die Kontextparameter selbst einen erheblichen Einfluss haben, der vom Text bereitgestellt wird, unabhängig von zusätzlichen Anmerkungen, die der Eingabeaufforderung hinzugefügt werden, was S2A auch bei der Neugenerierung des Kontexts reduzieren kann.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Die in Abbildung 6 (rechts) dargestellte Leistungsaufschlüsselung zeigt, dass die Objektivität der Basislinie insbesondere für die Kategorien „Gefällt mir“ und „Schreiben“ abnimmt, was zu einer Steigerung der positiven Emotionen als Reaktion führt. Im Gegensatz dazu liefert S2A im Vergleich zu Baseline und Oracle objektivere Antworten in allen Kategorien, auch in der Kategorie ohne zusätzliche Meinungen in Eingabeaufforderungen (keine Kategorien).

System 2 Aufmerksamkeit erhöht die Genauigkeit bei mathematischen Textaufgaben mit irrelevanten Sätzen Abbildung 7 zeigt die Ergebnisse der GSM-IC-Aufgabe. In Übereinstimmung mit den Erkenntnissen von Shi et al. (2023) stellte die Arbeit fest, dass die Grundgenauigkeit von Zufallsablenkern viel geringer ist als die von Oracle (die gleiche Eingabeaufforderung wird ohne irrelevante Sätze eingegeben), wie in Abbildung 7 (links) dargestellt. Dieser Effekt ist noch größer, wenn sich die nicht zusammenhängenden Sätze auf dasselbe Thema beziehen wie die Frage in Abbildung 7 (rechts). Das Papier stellte fest, dass das Papier Baseline, Oracle und Schritt 2 von S2A im LLaMA-2-70B-Chat verwendete (dargestellt in Abbildung 16) und stellte fest, dass das Modell in seiner Lösung immer eine Denkkettenbegründung durchführte. Das Hinzufügen einer Anweisung zusätzlich zur Aufforderung, irrelevante Sätze zu ignorieren (Anweisungsaufforderung), führte nicht zu nachhaltigen Verbesserungen. Wenn S2A vor der Lösung der Frage relevante Teile des Fragentextes extrahierte, erhöhte sich die Genauigkeit bei zufälligen Ablenkern um 12 % und bei thematischen Ablenkern um 10 %. Abbildung 3 zeigt ein Beispiel für das Entfernen eines Ablenkungssatzes durch S2A. Das Papier testete auch einige im Text beschriebene Varianten und maß wie zuvor die Leistung sachlicher QS-Aufgaben. Die Ergebnisse sind in Abbildung 8 dargestellt.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Die „einzelne“ Version von S2A trennt den neu generierten Kontext nicht in problematische und nicht problematische Komponenten, und die endgültige Leistung ähnelt der S2A-Version (Standard), die Leistung ist jedoch geringfügig schlechter.

Die „Keep Original“-Version von S2A (genannt „S2A-KeepOrig“) verfügt zusätzlich zu dem von S2A generierten regenerierten Kontext über eine letzte Generation, die sich weiterhin auf den ursprünglichen Kontext konzentrieren kann. Das Papier stellte fest, dass diese Methode die Leistung im Vergleich zum Standard-S2A verringerte, mit einer Gesamtgenauigkeit von 74,5 % im Vergleich zu 80,3 % bei S2A. Selbst wenn die vorhandene S2A-Version von LLM den vollständigen Kontext erhält, kann sie sich offenbar immer noch auf die ursprünglich betroffene Eingabeaufforderung konzentrieren, was zu einer Leistungseinbuße führt. Das bedeutet, dass die Aufmerksamkeit eher hart als sanft sein muss, wenn irrelevante oder falsche Relevanz im Kontext vermieden werden soll.

Die „Not Instructed“-Version von S2A (S2A-NI), die in Schritt 2 keine Debiasing-Eingabeaufforderungen hinzufügt, ist in der Gesamtgenauigkeit nur geringfügig schlechter als S2A. Das Papier sieht jedoch, dass in der Kategorie „Korrekt vorschlagen“ ein Versatz auftritt, wie in diesem Fall.

Das Hinzufügen eines Debiasing-Hinweises („Indikationshinweis“) zum Standard-LLM verbessert die Leistung des Basis-LLM (von 62,8 % auf 71,7 %), jedoch nicht so gut wie S2A (80,3 %), was diese Methode immer noch zeigt Nachvollziehbarkeit. Insbesondere ist die Genauigkeit der Basislinie in der Kategorie „Korrekt vorschlagen“ mit 92 % höher als die der Oracle-Eingabeaufforderung, was darauf hindeutet, dass sie von (in diesem Fall korrekten) Vorschlägen beeinflusst wird. Ebenso ist die Leistung der Kategorie „Falsches vorschlagen“ geringer als die von Oracle (38 % gegenüber 82 %), obwohl die Kategorie „Korrekt vorschlagen“ besser abschneidet und die Methode zu helfen scheint. Papers probierte auch die Zero-Shot-Chain-of-Think (CoT)-Eingabeaufforderung aus, eine weitere Anleitungsaufforderung, bei der hinzugefügt wurde: „Lassen Sie das Papier Schritt für Schritt darüber nachdenken“, was jedoch zu schlechteren Ergebnissen führte.

5. Zusammenfassung und Diskussion

Das Papier schlägt System 2 Attention (S2A) vor, eine Technik, die es LLM ermöglicht, wichtige Teile des Eingabekontexts zu entscheiden, um gute Antworten zu produzieren. Dies wird erreicht, indem das LLM veranlasst wird, zunächst den Eingabekontext so neu zu generieren, dass er nur relevante Teile enthält, und dann den neu generierten Kontext zu verarbeiten, um die endgültige Antwort hervorzurufen. Der Artikel beweist experimentell, dass S2A erfolgreich Kontexte umschreiben kann, die andernfalls die endgültige Antwort schwächen würden, sodass die Methode des Artikels die Fakten verbessern und die Nachverfolgung bei Antworten reduzieren kann.

Es gibt noch viele Möglichkeiten für die zukünftige Forschung. In den Experimenten des Artikels werden Zero-Shot-Eingabeaufforderungen verwendet, um S2A zu implementieren. Andere Ansätze könnten den Ansatz des Papiers weiter verfeinern, beispielsweise durch die Berücksichtigung von Feinabstimmung, verstärkendem Lernen oder alternativen Aufforderungstechniken. Erfolgreiches S2A kann auch in die Standard-LLM-Generierung zurückverfeinert werden, z. B. durch Feinabstimmung unter Verwendung der ursprünglichen Eingabeaufforderung und der endgültigen verbesserten S2A-Antwort als Ziel.

Anhang:

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

 

Das obige ist der detaillierte Inhalt von[Papierinterpretation] System 2 Aufmerksamkeit verbessert die Objektivität und Faktizität großer Sprachmodelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn