Heim > Artikel > Technologie-Peripheriegeräte > Was kann NLP sonst noch tun? Die Beihang University, die ETH, die Hong Kong University of Science and Technology, die Chinese Academy of Sciences und andere Institutionen haben gemeinsam ein hundertseitiges Papier veröffentlicht, um die Post-ChatGPT-Technologiekette systematisch zu erklären
Alles beginnt mit der Entstehung von ChatGPT...
Die einst friedliche NLP-Community wurde von diesem plötzlichen „Monster“ erschreckt! Über Nacht hat der gesamte NLP-Kreis enorme Veränderungen durchgemacht, die Branche ist schnell gefolgt, das Kapital ist gestiegen, und die akademische Gemeinschaft geriet plötzlich in einen Zustand der Verwirrung ... Alle begannen langsam Ich glaube, dass „NLP gelöst ist!“ ist real geworden! Das Produkt nach systematischer und umfassender Recherche. Ein 110-seitiges Papier erläutert systematisch die Technologiekette in der Post-ChatGPT-Ära: Interaktion.
Papieradresse: https://arxiv.org/abs/2305.13246
Projektressourcen: https://github. com /InteractiveNLP-Team
An die Wissenschaft: Was ist echte AGI? Tatsächlich beschrieb Yoshua Bengio, einer der drei Deep-Learning-Giganten und Gewinner des Turing Award, bereits 2020 einen Entwurf für ein interaktives Sprachmodell [1]: ein Sprachmodell, das mit der Umgebung und sogar sozial interagieren kann Nur so können wir die umfassendste semantische Darstellung der Sprache erreichen. Bis zu einem gewissen Grad entsteht durch die Interaktion mit der Umwelt und den Menschen die menschliche Intelligenz.
Es ist ersichtlich, dass sich der Schwerpunkt der NLP-Akademikergemeinschaft allmählich von „Wie baut man ein Modell“ zu „Wie baut man ein Framework“ verlagert hat, was bedeutet, dass mehr Entitäten in den Prozess des Sprachmodelltrainings einbezogen werden müssen Argumentation. Das typischste Beispiel ist das bekannte Reinforcement Learning from Human Feedback (RLHF). Das Grundprinzip besteht darin, das Sprachmodell aus der Interaktion mit Menschen (Feedback) lernen zu lassen [7].
Man kann also sagen, dass die Funktion „Interaktion“ nach ChatGPT einer der gängigsten technischen Entwicklungspfade für NLP ist! Der Beitrag der Autoren definiert und dekonstruiert erstmals „interaktives NLP“ systematisch und diskutiert vor allem anhand der Dimension interaktiver Objekte möglichst umfassend die Vor- und Nachteile verschiedener technischer Lösungen und Anwendungsüberlegungen, darunter:
Bei der Interaktion mit einem Objekt nennen die Autoren es „XXX-in-the-Loop“, was bedeutet, dass dieses Objekt am Prozess des Sprachmodelltrainings oder der Inferenz sowie an einer Kaskade, Schleife, Rückmeldung oder Teilnahme teilnimmt in iterativer Form.
Mit Menschen interagieren
Es gibt drei Möglichkeiten, das Sprachmodell mit Menschen interagieren zu lassen:
Verwenden Sie Aufforderungen zur Kommunikation e Feedback zum Lernen
„Mit Aufforderungen kommunizieren“ konzentriert sich hauptsächlich auf die Echtzeit- und Kontinuitätscharakteristik der Interaktion, das heißt, es betont den Kontinuitätscharakter mehrerer Dialogrunden. Dies steht im Einklang mit der Idee der Conversational AI [8]. Das heißt, der Benutzer kann in mehreren Dialogrunden weiterhin Fragen stellen, sodass sich die Antwort des Sprachmodells während des Dialogs langsam an die Präferenzen des Benutzers anpasst. Dieser Ansatz erfordert normalerweise keine Anpassung der Modellparameter während der Interaktion.
„Lernen mithilfe von Feedback“ ist derzeit die wichtigste Ausrichtungsmethode, die es Benutzern ermöglicht, Feedback zur Antwort des Sprachmodells zu geben. Dieses Feedback kann eine „Gut/Schlecht“-Anmerkung sein, die Präferenzen beschreibt, oder es kann natürlich sein Ausführlicheres Feedback in Sprachform. Das Modell muss trainiert werden, um diese Rückmeldungen so hoch wie möglich zu machen. Ein typisches Beispiel ist RLHF [7], das von InstructGPT verwendet wird. Es verwendet zunächst vom Benutzer beschriftete Präferenz-Feedback-Daten für Modellantworten, um ein Belohnungsmodell zu trainieren, und verwendet dieses Belohnungsmodell dann, um ein Sprachmodell mit einem bestimmten RL-Algorithmus zu trainieren, um die Belohnung zu maximieren (wie unten gezeigt) ).
Training von Sprachmodellen zur Befolgung von Anweisungen mit menschlichem Feedback [7]
„Mit Konfiguration anpassen“ ist eine spezielle interaktive Methode, die es Benutzern ermöglicht, die Superparameter des Sprachmodells (z. B B. Temperatur), oder die Kaskadenmethode von Sprachmodellen usw. Ein typisches Beispiel sind die KI-Ketten von Google [9]. Sprachmodelle mit verschiedenen voreingestellten Eingabeaufforderungen werden miteinander verbunden, um eine rationalisierte Aufgabenverarbeitung zu ermöglichen. Benutzer können die Knotenverbindungsmethode dieser Kette per Drag-and-Drop anpassen.
„Lernen aus menschlicher Simulation“ kann den groß angelegten Einsatz der oben genannten drei Methoden fördern, da der Einsatz realer Benutzer insbesondere im Trainingsprozess unrealistisch ist. Beispielsweise muss RLHF normalerweise ein Belohnungsmodell verwenden, um Benutzerpräferenzen zu simulieren. Ein weiteres Beispiel ist ITG [10] von Microsoft Research, das ein Oracle-Modell verwendet, um das Bearbeitungsverhalten von Benutzern zu simulieren.
Kürzlich haben Stanford-Professor Percy Liang und andere ein sehr systematisches Bewertungsschema für die Mensch-LM-Interaktion entwickelt: Evaluating Human-Language Model Interaction [11]. Interessierte Leser können sich auf dieses Papier oder den Originaltext beziehen. 🎞 Abruf
Wissen zur Verbesserung nutzen: Weitere Informationen finden Sie im Abschnitt „Interaction Message Fusion“. Ich werde es hier nicht vorstellen. Im Allgemeinen kann die Interaktion mit der Wissensdatenbank das „Halluzinations“-Phänomen des Sprachmodells lindern, das heißt, die Faktizität und Genauigkeit seiner Ausgabe verbessern und auch dazu beitragen, die Aktualität des Sprachmodells zu verbessern. um die Wissensfähigkeiten des Sprachmodells zu ergänzen (wie unten gezeigt) usw.
„Knowledge Retrieval“ ist in vier Methoden unterteilt:
Der Hauptzweck der Interaktion von Sprachmodellen mit Modellen oder Werkzeugen besteht darin, komplexe Aufgaben zu zerlegen, beispielsweise komplexe Denkaufgaben in mehrere Unteraufgaben zu zerlegen, was ebenfalls eine Kette ist des Denkens [17]. Verschiedene Teilaufgaben können mithilfe von Modellen oder Werkzeugen mit unterschiedlichen Fähigkeiten gelöst werden. Beispielsweise können Rechenaufgaben mithilfe von Taschenrechnern und Retrieval-Aufgaben mithilfe von Retrieval-Modellen gelöst werden. Daher kann diese Art der Interaktion nicht nur die Argumentations-, Planungs- und Entscheidungsfähigkeiten des Sprachmodells verbessern, sondern auch die Einschränkungen des Sprachmodells wie „Halluzinationen“ und ungenaue Ausgaben lindern. Insbesondere wenn ein Tool zum Ausführen einer bestimmten Unteraufgabe verwendet wird, kann dies einen gewissen Einfluss auf die Außenwelt haben, z. B. die Verwendung der WeChat-API zum Posten eines Freundeskreises usw., was als „toolorientiert“ bezeichnet wird Lernen“ [ 2].
Darüber hinaus ist es manchmal schwierig, eine komplexe Aufgabe explizit zu zerlegen. In diesem Fall können Sie verschiedenen Sprachmodellen unterschiedliche Rollen oder Fähigkeiten zuweisen und diese Sprachmodelle dann miteinander zusammenarbeiten lassen . Während des Kommunikationsprozesses wird implizit und automatisch eine bestimmte Arbeitsteilung gebildet, um Aufgaben zu zerlegen. Diese Art der Interaktion kann nicht nur den Lösungsprozess komplexer Aufgaben vereinfachen, sondern auch die menschliche Gesellschaft simulieren und eine Art intelligente Agentengesellschaft aufbauen.
Die Autoren stellen Modelle und Tools zusammen, vor allem weil Modelle und Tools nicht unbedingt zwei separate Kategorien sind. Beispielsweise unterscheiden sich ein Suchmaschinen-Tool und ein Retriever-Modell nicht wesentlich. Diese Essenz wird von den Autoren definiert, indem sie „nach der Aufgabenzerlegung feststellen, welche Unteraufgaben von welchen Objekten ausgeführt werden“.
Wenn ein Sprachmodell mit einem Modell oder Werkzeug interagiert, gibt es drei Arten von Operationen:
Hinweis: Beim Denken geht es hauptsächlich um die „mehrstufige Gedankenkette“, d. h. um unterschiedliche Argumentationsschritte, die unterschiedlichen Aufrufen des Sprachmodells entsprechen (mehrere Modellläufe), anstatt das Modell einmal auszuführen und Ausgabe von Gedanken + Antworten (einzelner Modelllauf) wie Vanilla CoT [17].
Dieser Teil erbt die Ausdrucksmethode von ReAct [18].
Zu den typischen Arbeiten zum Thema Denken gehören ReAct [18], Least-to-Most Prompting [19], Self-Ask [20] usw. Beispielsweise zerlegt Least-to-Most Prompting [19] zunächst ein komplexes Problem in mehrere einfache Modul-Unterprobleme und ruft dann iterativ das Sprachmodell auf, um sie einzeln zu lösen.
Typische Arbeiten zum Thema Schauspiel umfassen ReAct [18], HuggingGPT [21], Toolformer [22] usw. Toolformer [22] verarbeitet beispielsweise den vorab trainierten Korpus des Sprachmodells in ein Formular mit Eingabeaufforderung zur Werkzeugverwendung. Daher kann das trainierte Sprachmodell beim Generieren von Text automatisch die richtige Sprache aufrufen (z. B. Suchmaschinen, Übersetzungstools, Zeittools, Taschenrechner usw.) lösen bestimmte Teilprobleme.
Die Zusammenarbeit umfasst hauptsächlich:
Um dem Sprachmodell eine effektive und effiziente Interaktion mit der Umgebung zu ermöglichen, umfasst es daher hauptsächlich zwei Aspekte der Bemühungen:
Modalitätserdung: Ermöglichen, dass das Sprachmodell multimodale Informationen wie Bilder und mehr verarbeitet Audio ;Affordance Grounding: Lassen Sie das Sprachmodell mögliche und angemessene Aktionen an möglichen und geeigneten Objekten im Maßstab der spezifischen Szene der Umgebung ausführen.
Das typischste für Modality Grounding ist das visuell-sprachliche Modell. Im Allgemeinen kann dies mit einem Einzelturmmodell wie OFA [28], einem Zweiturmmodell wie BridgeTower [29] oder der Interaktion von Sprachmodell und visuellem Modell wie BLIP-2 [30] durchgeführt werden. Auf weitere Details wird hier nicht näher eingegangen, Leser können für Einzelheiten auf dieses Dokument verweisen.
Es gibt zwei Hauptüberlegungen für Affordance Grounding, nämlich: wie (1) eine Wahrnehmung im Szenenmaßstab (Szenenmaßstabswahrnehmung) unter den Bedingungen einer bestimmten Aufgabe durchgeführt wird und (2) mögliche Aktionen (mögliche Aktion). Zum Beispiel:
In der obigen Szene müssen wir beispielsweise für die gegebene Aufgabe „Bitte schalten Sie das Licht im Wohnzimmer aus“ und „Wahrnehmung des Szenenmaßstabs“ alle Lichter mit roten Kästchen finden Auswahl der Lichter, die sich nicht im Wohnzimmer, sondern in der Küche befinden. Für die grün eingekreisten Lichter müssen wir bei den „möglichen Aktionen“ die möglichen Möglichkeiten zum Ausschalten der Lichter ermitteln „Aktion, und das Ein- und Ausschalten des Lichts erfordert eine „Kippschalter“-Aktion.
Im Allgemeinen kann Affordance Grounding mithilfe einer von der Umgebung abhängigen Wertfunktion wie SayCan [31] usw. oder eines speziellen Erdungsmodells wie gelöst werden als Grounded kann Decoding [32] usw. verwendet werden. Es kann sogar durch die Interaktion mit Menschen, Modellen, Werkzeugen usw. gelöst werden (wie unten gezeigt).
Innerer Monolog [33]# Was für die Interaktion verwendet werden sollte: Interaktive Schnittstelle Im Kapitel „Interaktionsschnittstelle“ des Papiers diskutierten die Autoren systematisch die Verwendung sowie die Vor- und Nachteile verschiedener Interaktionssprachen und Interaktionsmedien, darunter:
#🎜🎜 #Natürliche Sprache: wie z. B. wenige Beispiele, Aufgabenanweisungen, Rollenzuweisung oder sogar strukturierte natürliche Sprache usw. Seine Eigenschaften und Funktionen in der Generalisierung und Expressivität werden hauptsächlich diskutiert. Formale Sprache: wie Code, Grammatik, mathematische Formeln usw. Seine Eigenschaften und Funktionen in Bezug auf Parsbarkeit und Argumentationsfähigkeit werden hauptsächlich diskutiert.Maschinensprache: wie Soft-Prompts, diskretisierte visuelle Token usw. Seine Eigenschaften und Funktionen in der Generalisierung, Informationsengpasstheorie, Interaktionseffizienz usw. werden hauptsächlich diskutiert.
Aus Platzgründen werden in diesem Artikel keine ausführlichen Diskussionen zu anderen Aspekten wie der Bewertung vorgestellt , Anwendung, Ethik, Sicherheit und zukünftige Entwicklungsrichtungen usw. Allerdings nehmen diese Inhalte im Originaltext der Arbeit immer noch 15 Seiten ein, daher wird den Lesern empfohlen, weitere Details im Originaltext anzusehen. Im Folgenden finden Sie eine Übersicht über diese Inhalte:
#🎜🎜 # Kommentare zur Interaktion
Die Bewertung in Das Papier Die Diskussion umfasst hauptsächlich die folgenden Schlüsselwörter:
Hauptanwendungen von Interactive NLP# 🎜🎜#
Inhaltsprüfung und -politur: Art der Inhaltsprüfung und -politur# ?? ## 🎜🎜##🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#verkörperte Ai#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Beobachtung und Manipulation : Basic
diskutiert die Auswirkungen interaktiver Sprachmodelle auf Bildung und geht auch auf soziale Vorurteile, Privatsphäre usw. ein. Ethische Sicherheitsfragen werden diskutiert .
Zukünftige Entwicklungsrichtung und Herausforderungen
# 🎜🎜#Ausrichtung: Das Ausrichtungsproblem von Sprachmodellen, wie kann die Ausgabe des Modells harmloser, konsistenter mit menschlichen Werten, vernünftiger usw. gestaltet werden? Soziale Verkörperung: Erdungsproblem des Sprachmodells, wie kann die Verkörperung und Sozialisierung des Sprachmodells weiter gefördert werden?
Das obige ist der detaillierte Inhalt vonWas kann NLP sonst noch tun? Die Beihang University, die ETH, die Hong Kong University of Science and Technology, die Chinese Academy of Sciences und andere Institutionen haben gemeinsam ein hundertseitiges Papier veröffentlicht, um die Post-ChatGPT-Technologiekette systematisch zu erklären. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!