Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Bei einer erneuten Untersuchung des Prompt-Optimierungsproblems macht die Vorhersageverzerrung das Lernen im Kontext des Sprachmodells stärker

Bei einer erneuten Untersuchung des Prompt-Optimierungsproblems macht die Vorhersageverzerrung das Lernen im Kontext des Sprachmodells stärker

王林
王林nach vorne
2023-04-04 11:40:011318Durchsuche

LLMs haben beim Lernen im Kontext gute Leistungen erzielt, aber die Auswahl verschiedener Beispiele führt zu völlig unterschiedlichen Leistungen. Eine aktuelle Forschungsarbeit schlägt eine schnelle Suchstrategie aus der Perspektive der Vorhersageverzerrung vor und findet ungefähr die optimale Kombination von Beispielen. ?? Aufgrund der erstaunlichen Fähigkeit können diese Modelle aus dem Kontext lernen, der aus einigen Eingabe- und Ausgabebeispielen erstellt wurde, und ohne Feinabstimmung der Optimierung direkt auf viele nachgelagerte Aufgaben angewendet werden. Frühere Untersuchungen haben jedoch gezeigt, dass kontextuelles Lernen aufgrund von Änderungen in den Trainingsbeispielen, der Beispielreihenfolge und den Aufforderungsformaten ein hohes Maß an Instabilität aufweisen kann. Daher ist die Erstellung geeigneter Eingabeaufforderungen von entscheidender Bedeutung, um die Leistung des kontextuellen Lernens zu verbessern.

Frühere Untersuchungen untersuchen dieses Problem normalerweise aus zwei Richtungen: (1) sofortige Optimierung im Codierungsraum (prompte Abstimmung), (2) Suche im ursprünglichen Raum (prompte Suche). Bei einer erneuten Untersuchung des Prompt-Optimierungsproblems macht die Vorhersageverzerrung das Lernen im Kontext des Sprachmodells stärker

Die Schlüsselidee des Prompt-Tunings besteht darin, aufgabenspezifische Einbettungen in verborgene Ebenen einzufügen und diese Einbettungen dann mithilfe einer verlaufsbasierten Optimierung anzupassen. Diese Methoden erfordern jedoch eine Änderung des ursprünglichen Inferenzprozesses des Modells und die Ermittlung des Modellgradienten, was bei Black-Box-LLM-Diensten wie GPT-3 und ChatGPT unpraktisch ist. Darüber hinaus führt die Optimierung von Hinweisen zu zusätzlichen Rechen- und Speicherkosten, die für LLM im Allgemeinen teuer sind.
  • Ein praktikablerer und effizienterer Ansatz besteht darin, die Eingabeaufforderungen zu optimieren, indem der ursprüngliche Textbereich nach ungefähren Demonstrationsbeispielen und -sequenzen durchsucht wird. Einige funktionieren beim Erstellen von Eingabeaufforderungen aus der „Globalen Ansicht“ oder der „Lokalen Ansicht“. Auf globalen Ansichten basierende Methoden optimieren normalerweise die verschiedenen Elemente der Eingabeaufforderung als Ganzes, um eine bessere Leistung zu erzielen. Diversitätsgesteuerte Ansätze [1] nutzen beispielsweise die Gesamtvielfalt der Demonstrationen für die Suche aus oder versuchen, die gesamte Reihenfolge der Stichprobenkombinationen zu optimieren [2], um eine bessere Leistung zu erzielen. Im Gegensatz zur globalen Ansicht funktionieren auf der lokalen Ansicht basierende Methoden, indem sie unterschiedliche heuristische Auswahlkriterien entwerfen, wie z. B. KATE [3].
  • Aber diese Methoden haben ihre eigenen Grenzen: (1) Die meisten aktuellen Forschungen konzentrieren sich hauptsächlich auf die Suche nach Hinweisen entlang eines einzelnen Faktors, wie z. B. Beispielauswahl oder -reihenfolge. Der Gesamteinfluss jedes Faktors auf die Leistung ist jedoch unklar. (2) Diese Methoden basieren in der Regel auf heuristischen Kriterien und erfordern eine einheitliche Perspektive, um die Funktionsweise dieser Methoden zu erklären. (3) Noch wichtiger ist, dass vorhandene Methoden Hinweise global oder lokal optimieren, was zu einer unbefriedigenden Leistung führen kann.
Dieser Artikel untersucht das Prompt-Optimierungsproblem im Bereich NLP erneut aus der Perspektive des „Vorhersagebias“ und entdeckt ein Schlüsselphänomen: Die Qualität eines bestimmten Prompts hängt von seiner inhärenten Bias ab. Basierend auf diesem Phänomen schlägt der Artikel ein alternatives Kriterium zur Bewertung der Qualität von Eingabeaufforderungen basierend auf der Vorhersageverzerrung vor. Diese Metrik kann Eingabeaufforderungen durch einen einzigen Vorwärtsprozess bewerten, ohne dass ein zusätzlicher Entwicklungssatz erforderlich ist.

Konkret wird erwartet, dass das Modell durch die Eingabe eines „Kein Inhalt“-Tests an einer bestimmten Eingabeaufforderung eine gleichmäßige Vorhersageverteilung ausgibt (eine „Kein Inhalt“-Eingabe enthält keine nützlichen Informationen). Daher wird in diesem Artikel die Einheitlichkeit der Vorhersageverteilung verwendet, um die Vorhersageabweichung einer bestimmten Eingabeaufforderung darzustellen. Dies ähnelt der Metrik, die von der vorherigen Nachkalibrierungsmethode [4] verwendet wurde, aber im Gegensatz zur Nachkalibrierung, bei der diese Metrik für die probabilistische Nachkalibrierung unter einer festen Eingabeaufforderung verwendet wird, untersucht der Artikel ihre Anwendung bei der automatischen Suche nach ungefähren Eingabeaufforderungen weiter. Und durch umfangreiche Experimente haben wir die Korrelation zwischen der inhärenten Verzerrung einer bestimmten Eingabeaufforderung und ihrer durchschnittlichen Aufgabenleistung bei einem bestimmten Testsatz bestätigt.

Darüber hinaus ermöglicht diese voreingenommene Metrik der Methode, „lokal bis global“ nach geeigneten Eingabeaufforderungen zu suchen. Ein realistisches Problem besteht jedoch darin, dass es nicht möglich ist, durch Durchlaufen aller Kombinationen nach der optimalen Lösung zu suchen, da ihre Komplexität O (N!) überschreiten würde.

Diese Arbeit schlägt zwei neuartige Strategien vor, um auf effiziente Weise nach qualitativ hochwertigen Eingabeaufforderungen zu suchen: (1) T-fair-Prompting (2) G-fair-Prompting. T-fair-Prompting verwendet einen intuitiven Ansatz, bei dem zunächst die Abweichung jedes einzelnen Beispiels berechnet wird, das einen Prompt bildet, und dann die Top-k-fairsten Beispiele ausgewählt werden, um sie zum endgültigen Prompt zu kombinieren. Diese Strategie ist mit einer Komplexität von O (N) recht effizient. Es sollte jedoch beachtet werden, dass T-fair-Prompting auf der Annahme basiert, dass der optimale Prompt normalerweise aus den am wenigsten verzerrten Beispielen konstruiert wird. Dies trifft jedoch in der Praxis möglicherweise nicht zu und führt oft zu lokal optimalen Lösungen. Daher wird G-fair-Prompting im Artikel weiter vorgestellt, um die Suchqualität zu verbessern. G-fair-Prompting folgt dem regulären Prozess der gierigen Suche, um die optimale Lösung zu finden, indem bei jedem Schritt lokal optimale Entscheidungen getroffen werden. Bei jedem Schritt des Algorithmus werden Beispiele so ausgewählt, dass die aktualisierte Eingabeaufforderung optimale Fairness mit einer Zeitkomplexität im ungünstigsten Fall von O (N^2) erreicht, was die Suchqualität erheblich verbessert. G-fair-Prompting funktioniert aus einer lokal-globalen Perspektive, wobei die Verzerrung einzelner Stichproben in den frühen Phasen berücksichtigt wird, während sich die späteren Phasen auf die Reduzierung der globalen Vorhersageverzerrung konzentrieren.

Experimentelle Ergebnisse

Diese Studie schlägt eine effektive und interpretierbare Methode zur Verbesserung der Kontextlernleistung von Sprachmodellen vor, die auf verschiedene nachgelagerte Aufgaben angewendet werden kann. Der Artikel überprüft die Wirksamkeit dieser beiden Strategien bei verschiedenen LLMs (einschließlich der GPT-Modellreihe und der kürzlich veröffentlichten LMaMA-Reihe). Im Vergleich zur SOTA-Methode erzielte G-fair-Prompting mehr als 10 % bei verschiedenen nachgelagerten Aufgaben .

Bei einer erneuten Untersuchung des Prompt-Optimierungsproblems macht die Vorhersageverzerrung das Lernen im Kontext des Sprachmodells stärker

Am nächsten kommt dieser Forschung die Methode „Kalibrierung vor der Verwendung“ [4], die beide „inhaltsfreie“ Eingaben verwenden, um die Modellleistung zu verbessern. Die Methode „Kalibrierung vor der Verwendung“ ist jedoch darauf ausgelegt, diesen Standard zur Kalibrierung der Ausgabe zu verwenden, was jedoch immer noch von der Qualität der verwendeten Beispiele abhängt. Im Gegensatz dazu zielt dieser Artikel darauf ab, den ursprünglichen Raum zu durchsuchen, um eine nahezu optimale Eingabeaufforderung zur Verbesserung der Leistung des Modells zu finden, ohne dass die Modellausgabe nachbearbeitet werden muss. Darüber hinaus ist dieser Artikel der erste, der durch umfangreiche Experimente den Zusammenhang zwischen Vorhersageverzerrung und endgültiger Aufgabenleistung demonstriert, der bei Methoden zur Kalibrierung vor der Verwendung noch nicht untersucht wurde.

Bei einer erneuten Untersuchung des Prompt-Optimierungsproblems macht die Vorhersageverzerrung das Lernen im Kontext des Sprachmodells stärker

Durch Experimente kann auch festgestellt werden, dass die mit der in diesem Artikel vorgeschlagenen Methode ausgewählten Eingabeaufforderungen auch ohne Kalibrierung besser sein können als die kalibrierten, zufällig ausgewählten Eingabeaufforderungen. Dies zeigt, dass die Methode in praktischen Anwendungen praktisch und effektiv sein und Inspiration für zukünftige Forschung zur Verarbeitung natürlicher Sprache liefern kann.

Das obige ist der detaillierte Inhalt vonBei einer erneuten Untersuchung des Prompt-Optimierungsproblems macht die Vorhersageverzerrung das Lernen im Kontext des Sprachmodells stärker. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen