


Eines der mysteriösesten Phänomene bei der Entstehung großer Modelle ist Chain of Thought Tips (CoT), das erstaunliche Ergebnisse bei der Lösung mathematischer Argumentations- und Entscheidungsprobleme gezeigt hat. Wie wichtig ist CoT? Was ist der Mechanismus hinter seinem Erfolg? In diesem Artikel beweisen mehrere Forscher der Peking-Universität, dass CoT für die Realisierung von LLM-Inferenzen (Large Language Model) unverzichtbar ist, und zeigen, wie CoT das enorme Potenzial von LLM aus theoretischer und experimenteller Sicht freisetzen kann.
Neueste Untersuchungen haben ergeben, dass Chain of Thought Prompting (CoT) die Leistung großer Sprachmodelle (LLM) erheblich verbessern kann und sich besonders für die Verarbeitung komplexer Aufgaben im Bereich Mathematik oder Argumentation eignet. Doch trotz vieler Erfolge sind die Mechanismen hinter CoTs und die Art und Weise, wie das Potenzial von LLMs freigesetzt werden kann, noch immer unklar.
Kürzlich enthüllte eine neue Studie der Peking-Universität das Geheimnis hinter CoT aus theoretischer Sicht.
Link zum Papier: https://arxiv.org/abs/2305.15408
Transformer-basiertes großes Sprachmodell ist zu einem universellen Modell in der Verarbeitung natürlicher Sprache geworden, das verschiedene Aufgaben erfüllt weit verbreitet. Mainstream-Großmodelle werden in der Regel auf der Grundlage des autoregressiven Paradigmas implementiert. Insbesondere können verschiedene Aufgaben (z. B. Textübersetzung, Textgenerierung, Beantwortung von Fragen usw.) einheitlich als Sequenzgenerierungsprobleme angesehen werden, bei denen die Eingabe der Frage und die Beschreibung erfolgen der Frage werden in einer Wortfolge (Token) zusammengefasst, die als Eingabeaufforderung (Eingabeaufforderung) bezeichnet wird. Die Antwort auf die Frage kann in die Aufgabe umgewandelt werden, auf der Grundlage der Eingabeaufforderung nachfolgende Wörter bedingt zu generieren.
Eine Vielzahl von Studien im Bereich großer Modelle haben gezeigt, dass sorgfältig gestaltete Aufforderungswörter eine entscheidende Rolle für die Leistung des Modells spielen. Insbesondere bei Rechen- oder Denkaufgaben kann CoT nachweislich die Richtigkeit der generierten Antworten deutlich verbessern. Wie in der Abbildung unten gezeigt, sind bei einer Aufgabe, die mathematisches Denken erfordert, die direkt vom großen Modell generierten Antworten oft falsch (Abbildungen a,b unten). Wenn Sie jedoch die Eingabeaufforderungen so ändern, dass das große Modell die gesamte Denkkette ausgibt (Zwischenableitungsschritte), erhalten Sie schließlich die richtige Antwort (c, d unten).
In der Praxis gibt es zwei gängige Möglichkeiten, die Gedankenkettenaufforderung umzusetzen: Eine besteht darin, der Aufforderung einen bestimmten Satz hinzuzufügen, z. B. „Lass uns Schritt für Schritt denken“, um sie auszulösen (wie gezeigt). Die andere Möglichkeit besteht darin, dem großen Modell die Simulation des entsprechenden Ableitungsprozesses zu ermöglichen, indem eine kleine Anzahl von Beispielen für die Demonstration der Denkkette bereitgestellt wird (wie in Abbildung d oben dargestellt).
Obwohl CoT in einer Vielzahl von Experimenten bemerkenswerte Leistungen erbracht hat, bleibt der theoretische Mechanismus dahinter ein Rätsel. Einerseits weisen große Modelle tatsächlich inhärente theoretische Mängel bei der direkten Beantwortung von Fragen zu Mathematik, Argumentation usw. auf? Warum kann CoT andererseits die Fähigkeiten großer Modelle bei diesen Aufgaben verbessern? Dieser Beitrag beantwortet die oben gestellten Fragen aus theoretischer Sicht.
Konkret untersuchen Forscher CoT aus der Perspektive der Modellausdrucksfähigkeit: Für mathematische Aufgaben und allgemeine Entscheidungsaufgaben untersucht dieser Artikel die Ausdrucksfähigkeit des Transformer-Modells basierend auf Autoregression in den folgenden zwei Aspekten: (1) Generieren Antworten direkt zu beantworten und (2) vollständige Lösungsschritte mithilfe von CoT zu generieren.
CoT ist der Schlüssel zur Lösung mathematischer Probleme
Große Modelle, die durch GPT-4 repräsentiert werden, haben schockierende mathematische Fähigkeiten bewiesen. Beispielsweise kann es die meisten Mathematikaufgaben in der Oberstufe richtig lösen und ist sogar zu einem Forschungsassistenten für Mathematiker geworden.
Um die mathematischen Fähigkeiten großer Modelle zu untersuchen, wurden in diesem Artikel zwei sehr grundlegende, aber zentrale mathematische Aufgaben ausgewählt: Arithmetik und Gleichungen (die folgende Abbildung enthält Beispiele für die Eingabe und Ausgabe dieser beiden Aufgaben). Da sie grundlegende Komponenten für die Lösung komplexer mathematischer Probleme sind, können wir durch die Untersuchung dieser beiden zentralen mathematischen Probleme ein tieferes Verständnis der Fähigkeiten großer Modelle für allgemeine mathematische Probleme erlangen.
Die Forscher untersuchten zunächst, ob Transformer Antworten auf die oben genannten Fragen ausgeben kann, ohne Zwischenschritte auszugeben. Sie betrachteten eine Annahme, die sehr mit der Realität übereinstimmt – einen Transformator mit logarithmischer Genauigkeit, das heißt, jedes Neuron des Transformators kann nur eine Gleitkommazahl mit begrenzter Genauigkeit darstellen (die Genauigkeit beträgt log n Bits), wobei n die maximale Länge ist des Satzes. Diese Annahme kommt der Realität sehr nahe, zum Beispiel ist in GPT-3 die Maschinengenauigkeit (16 oder 32 Bit) normalerweise viel kleiner als die maximale Länge des Ausgabesatzes (2048).
Unter dieser Annahme haben die Forscher ein im Kern unmögliches Ergebnis bewiesen: Für ein autoregressives Transformer-Modell mit einer konstanten Schicht und einer Breite von d ist es bei der Lösung der beiden oben genannten mathematischen Probleme durch direkte Ausgabe von Antworten erforderlich Verwenden Sie extrem große Modellbreite d. Insbesondere muss d mit zunehmender Eingabelänge n größer als das Polynom werden.
Der wesentliche Grund für dieses Ergebnis ist, dass es für die beiden oben genannten Probleme keinen effizienten parallelen Algorithmus gibt, sodass Transformer sie als typisches paralleles Modell nicht lösen kann. Der Artikel verwendet die Schaltungskomplexitätstheorie in der theoretischen Informatik, um den obigen Satz rigoros zu beweisen.
Was passiert also, wenn das Modell die Antwort nicht direkt ausgibt, sondern die Zwischenableitungsschritte in Form der obigen Abbildung ausgibt? Die Forscher bewiesen außerdem durch Konstruktion, dass, wenn das Modell Zwischenschritte ausgeben kann, ein autoregressives Transformer-Modell fester Größe (unabhängig von der Eingabelänge n) die beiden oben genannten mathematischen Probleme lösen kann. Ein Vergleich der vorherigen Ergebnisse zeigt, dass das Hinzufügen von CoT die Ausdrucksfähigkeit großer Modelle erheblich verbessert. Darüber hinaus vermittelten die Forscher ein intuitives Verständnis dafür: Dies liegt daran, dass die Einführung von CoT die generierten Ausgabewörter kontinuierlich an die Eingabeschicht zurückmeldet, was die effektive Tiefe des Modells erheblich erhöht und es proportional zur Ausgabelänge von CoT macht. Dadurch wurde die Effizienz des Modells erheblich verbessert. Die parallele Komplexität von Transformer wurde erheblich verbessert.
CoT ist der Schlüssel zur Lösung allgemeiner Entscheidungsprobleme
Zusätzlich zu mathematischen Problemen untersuchten die Forscher außerdem die Fähigkeit von CoT, allgemeine Aufgaben zu lösen. Ausgehend vom Entscheidungsproblem betrachteten sie einen allgemeinen Rahmen zur Lösung von Entscheidungsproblemen, der als dynamische Programmierung bezeichnet wird.Die Grundidee der dynamischen Programmierung (DP) besteht darin, ein komplexes Problem in eine Reihe kleiner Teilprobleme zu zerlegen, die nacheinander gelöst werden können. Durch die Zerlegung des Problems wird sichergestellt, dass zwischen den verschiedenen Teilproblemen eine signifikante Wechselbeziehung (Überlappung) besteht, sodass jedes Teilproblem mithilfe der Antworten auf die vorherigen Teilprobleme effizient gelöst werden kann.
Die längste aufsteigende Teilfolge (LIS) und die Lösung des Bearbeitungsabstands (ED) sind zwei berühmte DP-Probleme, die im Buch „Einführung in Algorithmen“ vorgeschlagen werden. Die folgende Tabelle listet die Zustandsräume und Übergänge dieser beiden Probleme auf der Funktion.
Forscher haben bewiesen, dass das autoregressive Transformer-Modell eine vollständige dynamische Programmier-Denkkette in der Reihenfolge der Lösung von Unterproblemen ausgeben kann, sodass es für alle lösbaren Aufgaben ausgegeben werden kann dynamische Programmierung Richtige Antwort. Ebenso zeigten die Forscher weiter, dass generative Denkketten notwendig sind: Für viele schwierige dynamische Programmierprobleme kann ein Transformer-Modell mit konstanter Schicht und Polynomgröße nicht direkt die richtige Antwort ausgeben. Der Artikel liefert ein Gegenbeispiel zum Problem des kontextfreien Grammatikmitgliedschaftstests.
ExperimenteDie Forscher entwarfen schließlich eine große Anzahl von Experimenten, um die obige Theorie zu verifizieren, wobei sie vier verschiedene Aufgaben berücksichtigten: die Auswertung arithmetischer Ausdrücke, die Lösung linearer Gleichungen, die Lösung der längsten aufsteigenden Teilfolge und die Lösung der Bearbeitungsdistanz.Experimentelle Ergebnisse zeigen, dass ein dreischichtiges autoregressives Transformer-Modell beim Training mit CoT-Daten bei allen Aufgaben eine nahezu perfekte Leistung erzielen konnte. Die direkte Ausgabe der richtigen Antwort ist jedoch bei allen Aufgaben schlecht (auch bei tieferen Modellen). Dieses Ergebnis zeigt deutlich die Fähigkeit des autoregressiven Transformators, eine Vielzahl komplexer Aufgaben zu lösen, und zeigt die Bedeutung von CoT bei der Lösung dieser Aufgaben.
Das obige ist der detaillierte Inhalt vonWie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Meta hat sich mit Partnern wie Nvidia, IBM und Dell zusammengetan, um die Einsatzintegration von Lama Stack auf Unternehmensebene zu erweitern. In Bezug auf die Sicherheit hat Meta neue Tools wie Llam Guard 4, Llamafirewall und Cyberseceval 4 auf den Markt gebracht und das Lama Defenders -Programm gestartet, um die KI -Sicherheit zu verbessern. Darüber hinaus hat Meta 1,5 Millionen US -Dollar an Lama -Impact -Zuschüssen an 10 globale Institutionen verteilt, darunter Startups, die an der Verbesserung der öffentlichen Dienste, der Gesundheitsversorgung und der Bildung arbeiten. Die neue Meta -AI -Anwendung von Lama 4, die als Meta AI konzipiert wurde

Joi Ai, eine Firma Pionierin der Human-AI-Interaktion, hat den Begriff "AI-Lationships" eingeführt, um diese sich entwickelnden Beziehungen zu beschreiben. Jaime Bronstein, ein Beziehungstherapeut bei Joi AI, stellt klar, dass diese nicht dazu gedacht sind, das Menschen C zu ersetzen C.

Online -Betrug und Bot -Angriffe stellen eine bedeutende Herausforderung für Unternehmen dar. Einzelhändler bekämpfen Bots, die Produkte horten, Banken Battle Account Takeovers und Social -Media -Plattformen kämpfen mit Imitatoren. Der Aufstieg von AI verschärft dieses Problem, das Rende

AI -Agenten sind bereit, das Marketing zu revolutionieren und möglicherweise die Auswirkungen früherer technologischer Verschiebungen zu übertreffen. Diese Agenten, die einen signifikanten Fortschritt in der generativen KI darstellen, verarbeiten nicht nur Informationen wie Chatgpt, sondern auch Actio

Die Auswirkungen der KI auf wichtige Entscheidungen von NBA Game 4 Zwei entscheidende NBA-Matchups in Game 4 zeigten die bahnbrechende Rolle der KI beim Amtieren. Im ersten Fall führte Denvers verpasste Drei-Zeiger von Nikola Jokic zu einer Gasse in der letzten Sekunden von Aaron Gordon. Sony's Haw

Traditionell forderte die weltweit expandierende Expertin der regenerativen Medizin umfangreiche Reisen, praktische Ausbildung und jahrelange Mentoring. Jetzt verändert AI diese Landschaft, überwindet geografische Einschränkungen und beschleunigte Fortschritte durch EN

Intel arbeitet daran, seinen Herstellungsprozess in die führende Position zurückzugeben, während er versucht, Fab -Semiconductor -Kunden anzuziehen, um Chips an seinen Fabriken herzustellen. Zu diesem Zweck muss Intel mehr Vertrauen in die Branche aufbauen, um nicht nur die Wettbewerbsfähigkeit seiner Prozesse zu beweisen, sondern auch zu demonstrieren, dass Partner Chips in einer vertrauten und ausgereiften Workflow, konsistente und sehr zuverlässige Weise herstellen können. Alles, was ich heute höre, lässt mich glauben, dass Intel dieses Ziel zu diesem Ziel bewegt. Die Keynote -Rede des neuen CEO Tan Libai begann den Tag. Tan Libai ist unkompliziert und prägnant. Er skizziert mehrere Herausforderungen in den Foundry -Diensten von Intel und die Maßnahmen, die Unternehmen ergriffen haben, um diese Herausforderungen zu bewältigen und einen erfolgreichen Weg für Intel Foundry Services in Zukunft zu planen. Tan Libai sprach über den Prozess des OEM -Dienstes von Intel, um Kunden mehr zu machen

Die Chaucer Group, ein globales Spezialversicherungsunternehmen, und Armilla AI haben sich mit den wachsenden Bedenken hinsichtlich der KI-Risiken befassen, und Armilla AI haben sich zusammengeschlossen, um ein neuartiges Versicherungsprodukt von Drittanbietern (TPL) einzubringen. Diese Richtlinie schützt Unternehmen vor


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Dreamweaver Mac
Visuelle Webentwicklungstools
