Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Was ist der Lerninhalt hinter ChatGPT? PSU veröffentlicht seine erste umfassende Rezension zum Thema „Instructional Learning“

Was ist der Lerninhalt hinter ChatGPT? PSU veröffentlicht seine erste umfassende Rezension zum Thema „Instructional Learning“

王林
王林nach vorne
2023-04-07 19:51:011119Durchsuche

Aufgabensemantik kann durch eine Reihe von Eingabe-Ausgabe-Beispielen oder eine Textanweisung dargestellt werden. Herkömmliche Methoden des maschinellen Lernens zur Verarbeitung natürlicher Sprache (NLP) basieren hauptsächlich auf der Verfügbarkeit umfangreicher aufgabenspezifischer Beispielsätze.

Es treten jedoch zwei Probleme auf: Erstens eignet sich das Sammeln aufgabenspezifisch gekennzeichneter Beispiele nicht für Szenarien, in denen die Aufgabe möglicherweise zu komplex oder zu teuer zum Kommentieren ist oder das System neue Aufgaben sofort verarbeiten muss benutzerfreundlich, da Endbenutzer vor der Verwendung des Systems möglicherweise lieber eine Aufgabenbeschreibung als eine Reihe von Beispielen bereitstellen möchten.

Daher zeigt die Community zunehmendes Interesse an einem neuen, auf Supervision ausgerichteten NLP-Paradigma: Lernen aus Aufgabenanweisungen. Trotz der beeindruckenden Fortschritte steht die Community immer noch vor einigen gemeinsamen Problemen.

Dieser Artikel versucht, die aktuelle Forschung zum Instruktionslernen unter folgenden Aspekten zusammenzufassen:

(1) Was ist eine Aufgabenanweisung und welche Arten von Anweisungen gibt es?

(2) Wie modelliere ich eine Anleitung?

(3) Welche Faktoren beeinflussen und erklären die Ausführung von Anweisungen?

(4) Welche weiteren Herausforderungen enthält die Richtlinie?

Nach unserem Kenntnisstand ist dies die erste umfassende Übersicht über Textbefehle.

Was ist der Lerninhalt hinter ChatGPT? PSU veröffentlicht seine erste umfassende Rezension zum Thema „Instructional Learning“

Papieradresse: https://arxiv.org/pdf/2303.10475v2.pdf

1 Einführung

Eines der Ziele der künstlichen Intelligenz ist der Aufbau eines Systems, das universell einsetzbar ist Neue Aufgaben des Systems verstehen und lösen. Es ist unwahrscheinlich, dass beschriftete Beispiele als gängige Aufgabendarstellungen allgemein verfügbar sind oder gar nicht existieren. Gibt es also andere Aufgabendarstellungen, die zum Aufgabenverständnis beitragen können? Aufgabenanweisungen bieten eine weitere Überwachungsdimension zum Ausdruck der Aufgabensemantik, und Anweisungen enthalten häufig abstrakteres und umfassenderes Wissen über die Zielaufgabe als ein einzelnes beschriftetes Beispiel.

Instruktives Lernen ist vom typischen menschlichen Lernen neuer Aufgaben inspiriert. Zum Beispiel kann ein Kind eine neue Mathematikaufgabe gut lösen, indem es anhand von Anweisungen und einigen Beispielen lernt. Dieses neue Lernparadigma hat in letzter Zeit große Aufmerksamkeit in der maschinellen Lern- und NLP-Community auf sich gezogen.

Wie in Abbildung 1 dargestellt, können durch die Verfügbarkeit von Aufgabenanweisungen Systeme schnell für die Bewältigung neuer Aufgaben aufgebaut werden, insbesondere wenn aufgabenspezifische Anmerkungen knapp sind.

Was ist der Lerninhalt hinter ChatGPT? PSU veröffentlicht seine erste umfassende Rezension zum Thema „Instructional Learning“

Wenn es um Aufgabenanweisungen geht, assoziieren die meisten von uns das Konzept zunächst mit Eingabeaufforderungen – mit einer kurzen Vorlage, um die neue Eingabe in ein Sprachmodellierungsproblem umzuformatieren, sodass eine Antwort zum Starten von PLM vorliegt. Obwohl Hinweise in der Textklassifizierung, maschinellen Übersetzung usw. allgegenwärtig sind, sind Hinweise nur ein Sonderfall von Anweisungen. Dieser Artikel bietet einen umfassenden und umfassenderen Überblick über die anweisungsgesteuerte NLP-Forschung. Konkret versuchen wir, die folgenden Fragen zu beantworten:

  • Was ist eine Aufgabenanweisung und welche Arten von Anweisungen gibt es?
  • Wie kann eine Aufgabenanweisung kodiert werden, um die Zielaufgabe zu erledigen
  • ?
  • Welche Faktoren (z. B. Modellgröße, Anzahl der Aufgaben) beeinflussen die Leistung anweisungsgesteuerter Systeme und wie lassen sich bessere Anweisungen entwerfen? Welche Herausforderungen gibt es beim Unterrichtslernen und was ist das? ?
  • Nach unserem besten Wissen ist dies die erste Arbeit, die das Lernen von Textanweisungen untersucht. Im Vergleich zu einigen bestehenden Umfragen, die sich auf spezifische Kontextanweisungen wie Aufforderungen, Input-by-Output-Demonstrationen oder Argumentation konzentrieren, bieten wir eine breitere Perspektive, die verschiedene Forschungsarbeiten in diesem Bereich auf organisierte Weise miteinander verbindet. Ich hoffe, dass dieser Artikel eine bessere Lehr-Lerngeschichte präsentieren und mehr Kollegen dazu bewegen kann, sich mit diesem anspruchsvollen Problem der künstlichen Intelligenz zu befassen. Zu dieser Umfrage haben wir auch eine entsprechende Leseliste veröffentlicht.

    2 Grundkenntnisse

    Beim aufgabenbasierten Lernen besteht das Ziel darin, das System durch Befolgen von Anweisungen dazu zu bringen, die Ausgabe einer bestimmten Eingabe zu erzielen. Daher besteht ein Datensatz aus drei Elementen: Eingabe (X) , Frage, Antwort usw.).

    Ausgabe (Y): Die Ausgabe der Instanz; in einem Klassifizierungsproblem kann es sich um eine oder mehrere vordefinierte Beschriftungen handeln; in einer Textgenerierungsaufgabe kann es sich um einen beliebigen offenen Text handeln.

    Vorlage (T): Eine Textvorlage, die versucht, die Bedeutung einer Aufgabe allein auszudrücken oder als Brücke zwischen X und Y zu fungieren. T ist möglicherweise noch keine Komponentenstruktur.

    3 Was ist ein Aufgabenauftrag? In früheren Zero-Shot- und Few-Shot-NLP-Aufgaben wurden verschiedene Arten von Textanweisungen

    verwendet, z. B. Eingabeaufforderungen, Amazon Mechanical Turk-Anweisungen, ergänzt durch demonstrierte Anweisungen und Erklärungen zur Gedankenkette. Unterschiedliche Anweisungen wurden ursprünglich für unterschiedliche Ziele entwickelt (z. B. Mturk-Anweisungen wurden ursprünglich für das Verständnis durch menschliche Annotatoren erstellt, Eingabeaufforderungen dienten der Steuerung von PLM). In diesem Abschnitt fassen wir, wie in Abbildung 2 dargestellt, diese Anweisungen zunächst in drei Kategorien zusammen, die unterschiedliche Kombinationen von T und formaler Definition durchführen.

    3.1 I=T^+Y: Entailment-gesteuerte Anweisungen

    Eine traditionelle Lösung zur Handhabung von Klassifizierungsaufgaben besteht darin, die Zielbezeichnung in einen Index umzuwandeln und das Modell entscheiden zu lassen, zu welchem ​​Index die Eingabe gehört. Dieses Paradigma konzentriert sich auf die Codierung der Eingabesemantik, während die Beschriftungssemantik verloren geht. Damit das System neue Etiketten erkennen kann, ohne auf eine große Anzahl markierter Beispiele angewiesen zu sein, schlagen Yin et al. vor, für jedes Etikett eine Hypothese aufzustellen – dann wird der abgeleitete Wahrheitswert des Etiketts in den ermittelten Wahrheitswert umgewandelt Hypothese. Wie in Tabelle 1 gezeigt, ist diese Methode in Anweisung I integriert und kombiniert Vorlage T mit Label Y, um jedes Ziellabel Y zu interpretieren. Da dieses Paradigma natürlich das Format der textuellen Folgerung (TE, wobei Aufgabeneingaben und Anweisungen als Prämissen bzw. Hypothesen betrachtet werden können) erfüllt, werden diese Arten von Anweisungen als „folgerungsorientierte Anweisungen“ bezeichnet. ( 2) Bildet einen einheitlichen Argumentationsprozess – Textfolgerung – zur Behandlung verschiedener NLP-Probleme

    (3) Es schafft Möglichkeiten, die indirekte Überwachung bestehender TE-Datensätze zu nutzen, sodass erwartet wird, dass vorab trainierte TE-Modelle an diesen Zielen arbeiten Aufgaben ohne aufgabenspezifische Feinabstimmung;

    (4) Erweitern Sie das ursprüngliche Problem der Klassifizierung geschlossener Etiketten auf eine offene Domäne mit wenigen oder sogar keinen generischen Klassenproben. Das Problem der Erkennung offener Etiketten.

    Daher wird es häufig bei verschiedenen Klassifizierungsaufgaben mit wenigen Schüssen/Null-Schüssen verwendet, z. B. bei der Klassifizierung von Themen, Emotionen, Körperhaltungen, Entitätstypen und Entitätsbeziehungen.

    3.2 I=T^ + Bei Aufgabeneingabe (Präfix-Eingabeaufforderung) oder einer Lückentext-Fragenvorlage (Lückentext-Eingabeaufforderung). Es wird hauptsächlich verwendet, um Zwischenantworten (die weiter in endgültige Antworten umgewandelt werden können) aus vorab trainierten Sprachmodellen (PLM) abzufragen.

    Da die Eingabeaufforderung beispielsweise die Pre-Training-Ziele von PLM erfüllt und die Eingabe im Gestaltstil das Ziel der maskierten Sprachmodellierung erfüllt, hilft sie, die Abhängigkeit von der traditionellen überwachten Feinabstimmung zu beseitigen und die Kosten dafür erheblich zu senken manuelle Anmerkung. Infolgedessen hat schnelles Lernen beeindruckende Ergebnisse bei einer großen Anzahl früherer NLP-Aufgaben mit wenigen oder null Schüssen erzielt, beispielsweise bei der Beantwortung von Fragen, maschineller Übersetzung, Stimmungsanalyse, Textfolgerung und Erkennung benannter Entitäten.

    Was ist der Lerninhalt hinter ChatGPT? PSU veröffentlicht seine erste umfassende Rezension zum Thema „Instructional Learning“

    3.3 Menschenzentrierte Anweisungen

    Menschenzentrierte Anweisungen beziehen sich im Wesentlichen auf Anweisungen, die für Crowdsourcing auf menschlichen Annotationsplattformen (z. B. Amazon MTurk-Anweisungen) verwendet werden. Im Gegensatz zu menschenorientierten Anweisungen handelt es sich bei menschenorientierten Anweisungen in der Regel um für Menschen lesbare, beschreibende, aufgabenspezifische Textinformationen im Absatzstil, bestehend aus Aufgabentiteln, Kategorien, Definitionen, zu vermeidenden Dingen usw. Daher sind menschenzentrierte Anweisungen benutzerfreundlicher und können ideal auf nahezu jede komplexe NLP-Aufgabe angewendet werden.

    4 Wie modelliere ich eine Anleitung?

    In diesem Abschnitt fassen wir einige der beliebtesten Modellierungsstrategien für das Unterrichtslernen zusammen. Insgesamt werden in diesem Artikel vier verschiedene Modellierungsschemata vorgestellt: Für frühe Systeme, die auf maschinellem Lernen basieren, (1) sind semantische Parser-basierte Strategien eine gängige Methode zum Kodieren von Anweisungen, da neurale Netze und vorab trainierte Sprachmodelle aufkommen, (2 ) Cue-Template-basierte und (3) Prefix-Instruction-basierte Instruktionslernmodelle haben sich in letzter Zeit zu zwei bevorzugten Paradigmen entwickelt; (4) Hypernetzwerk-basierte Methoden haben ebenfalls größeres Interesse geweckt.

    5 Anwendungen

    5.1 Mensch-Computer-Interaktion

    Textbefehle können natürlich als eine Form der Mensch-Computer-Interaktion betrachtet werden. In vielen früheren Arbeiten wurden Anweisungen in natürlicher Sprache verwendet, um Computer zu „anweisen“, eine Vielzahl realer Aufgaben auszuführen.

    Bei Nicht-NLP-Aufgaben (multimodal) konzentrieren sich die meisten auf das umgebungsbasierte Sprachenlernen, d. h. darauf, den Agenten dazu zu bringen, Anweisungen in natürlicher Sprache mit der Umgebung zu verknüpfen und entsprechend zu reagieren, z Navigationsanweisungen, zeichnen entsprechende Spuren auf der Karte, spielen Fußball-/Kartenspiele nach vorgegebenen Regeln, generieren Echtzeit-Sportübertragungen, steuern Software und fragen externe Datenbanken ab. Gleichzeitig werden Anweisungen auch häufig verwendet, um die Kommunikation mit Systemen bei der Lösung von NLP-Aufgaben zu unterstützen, z. B. das Befolgen von Anweisungen zum Bearbeiten von Zeichenfolgen, das Klassifizieren von E-Mails anhand einer gegebenen Erklärung und die Text-zu-Code-Generierung.

    In den letzten Jahren tendieren immer mehr Forschungen dazu, den Mensch-Maschine-Kommunikationsprozess iterativ und modular zu gestalten. Li et al. haben beispielsweise ein System entwickelt, um Benutzern bei täglichen Aufgaben zu helfen (z. B. Kaffee bestellen oder ein Uber anfordern). Dank der benutzerfreundlichen grafischen Oberfläche kann das System iterativ Fragen zu Aufgaben stellen und Benutzer können ihre Anweisungen kontinuierlich verfeinern, um unklare Beschreibungen oder vage Konzepte zu vermeiden. In ähnlicher Weise schlugen Dwivedi-Yu et al. einen Benchmark vor, um PLM iterativ anzuleiten, um Text zu verbessern, wobei jede Iteration nur einen kurzen Satz von Anweisungen mit einem genauen Zweck verwendet (z. B. „Text vereinfachen“ oder „Text neutral machen“). Darüber hinaus haben Chakrabarty et al. ein kollaboratives Gedichtschreibsystem entwickelt, bei dem Benutzer zunächst eine mehrdeutige Anweisung geben können (z. B. „Schreibe ein Gedicht über Kuchen“) und diese dann schrittweise durch Beobachtung der Zwischenausgabe des Modells verfeinern können. z. B. „Enthält das Wort -chocolate“). Unterdessen schlugen Mishra und Nouri ein Biografie-Generierungssystem vor, das nach und nach die notwendigen persönlichen Informationen des Benutzers sammelt (indem es Fragen stellt, um den Benutzer in Gesprächsszenarien anzuleiten) und letztendlich eine absatzbasierte Biografie generiert. Als Reaktion auf das Problem, dass nicht-fachkundige Benutzer Schwierigkeiten haben, vollständige Anweisungen auf einmal zu schreiben, kann die Einführung eines iterativen und modularen Designparadigmas beim Entwurf anweisungsbasierter künstlicher Intelligenzsysteme Benutzer dazu anleiten, Aufgabenanweisungen schrittweise zu bereichern, wodurch das Denken der Benutzer effektiv erleichtert wird Bedürfnisse. Machen Sie das System benutzerorientierter. Dieser Artikel unterstreicht die Bedeutung dieses Arbeitszweigs angesichts seines praktischen Werts.

    5.2 Daten- und Funktionsverbesserung

    Aufgabenaufträge gelten als indirekte Quelle der Aufsicht, die teilweise oberflächliche und willkürliche Regeln enthalten. Diese Regeln werden auch Beschriftungsfunktionen genannt und können direkt auf Anmerkungen angewendet werden (z. B. ist der Satz „ein sehr fairer Preis“ sentimental positiv, weil „vor dem Wort „preis“ direkt „fair“ steht). Daher verwenden einige bestehende Arbeiten auch Anweisungen zur Fernüberwachung, um Daten- oder Funktionsverbesserungen durchzuführen. Beispielsweise verwenden Srivastava et al. semantische Parser, um Erklärungen in natürlicher Sprache in logische Formen umzuwandeln und sie auf alle Instanzen im Datensatz anzuwenden, um zusätzliche binäre Merkmale zu generieren. Wang et al. nutzten die Label-Interpretation, um den Originalkorpus automatisch zu kommentieren und einen Klassifikator anhand der generierten verrauschten Daten zu trainieren. Zusätzlich zur direkten Erweiterung verwendeten Su et al. außerdem Aufgabenanweisungen, um die Modelldarstellung zu bereichern und eine starke aufgabenübergreifende Verallgemeinerung zu erreichen. Konkret trainierten sie ein Einbettungsmodell (einzelner Encoder) auf einem anderen Befehlsdatensatz mit kontrastivem Lernen und nutzten das Modell dann, um anweisungsbasierte aufgabenspezifische Darstellungen für nachgelagerte, unsichtbare Aufgaben zu generieren. 5.3 Universal-Sprachmodell wird weit über das hinausgehen, was seine Schöpfer ursprünglich erwartet hatten. Obwohl das allgemeine Sprachmodell spezifisch für den NLP-Bereich ist, sollte es sich um einen hervorragenden Multitasking-Assistenten handeln, der in der Lage ist, eine Vielzahl realer NLP-Aufgaben und verschiedene Sprachen auf völlig Zero-Shot-/Few-Shot-Weise kompetent zu bewältigen. Da viele bestehende Arbeiten die überraschende Fähigkeit der Verwendung von Anweisungen zur aufgabenübergreifenden Generalisierung demonstrieren, ist diese Anleitung wahrscheinlich ein Durchbruch in Richtung dieses Endziels.

    Es ist erwähnenswert, dass zwei aktuelle bemerkenswerte Anwendungen von Anweisungen, nämlich InstructGPT und ChatGPT, ebenfalls einen großen Schritt in Richtung Aufbau allgemeiner Sprachmodelle anzeigen. Im Gegensatz zu anderen Werken, die hauptsächlich instruktives Lernen nutzen, übernimmt ChatGPT jedoch auch einige andere Komponenten, wie z. B. Reinforcement Learning with Human Feedback (RLHF). Während die Antwort auf die Frage, „welche Komponente mehr zu den hervorragenden Ergebnissen von ChatGPT beiträgt“, vage bleibt und weiterer Untersuchungen bedarf, stellen wir einige neuere Arbeiten vor, um die entscheidende Rolle des Unterrichtslernens hervorzuheben. Beispielsweise führten Chung et al. umfangreiche Experimente durch, um die Ausrichtung menschlicher Präferenzen für PaLM zu bewerten. Sie fanden heraus, dass die Feinabstimmung der Anweisungen auch ohne menschliches Feedback die Toxizitäten der offenen Generation von PaLM, wie z. B. geschlechtsspezifische und berufliche Vorurteile, deutlich reduzierte. Darüber hinaus wurde bei einigen anderen Arbeiten auch allein auf kreative Anleitung anstelle von menschlichem Feedback zurückgegriffen und erhebliche aufgabenübergreifende Ergebnisse erzielt. Obwohl ChatGPT immer noch viele unbefriedigende Aspekte aufweist und noch weit von einem universellen Sprachmodell entfernt ist, hoffen wir, dass das Ziel von AGI durch die Einführung und Entwicklung leistungsfähigerer Technologien, einschließlich des Unterrichtslernens, weiterhin gefördert werden kann.

Das obige ist der detaillierte Inhalt vonWas ist der Lerninhalt hinter ChatGPT? PSU veröffentlicht seine erste umfassende Rezension zum Thema „Instructional Learning“. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen