Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter-KI-php.cn

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 03, 2023 pm 04:49 PM

模型思维

Eines der mysteriösesten Phänomene bei der Entstehung großer Modelle ist Chain of Thought Tips (CoT), das erstaunliche Ergebnisse bei der Lösung mathematischer Argumentations- und Entscheidungsprobleme gezeigt hat. Wie wichtig ist CoT? Was ist der Mechanismus hinter seinem Erfolg? In diesem Artikel beweisen mehrere Forscher der Peking-Universität, dass CoT für die Realisierung von LLM-Inferenzen (Large Language Model) unverzichtbar ist, und zeigen, wie CoT das enorme Potenzial von LLM aus theoretischer und experimenteller Sicht freisetzen kann.

Neueste Untersuchungen haben ergeben, dass Chain of Thought Prompting (CoT) die Leistung großer Sprachmodelle (LLM) erheblich verbessern kann und sich besonders für die Verarbeitung komplexer Aufgaben im Bereich Mathematik oder Argumentation eignet. Doch trotz vieler Erfolge sind die Mechanismen hinter CoTs und die Art und Weise, wie das Potenzial von LLMs freigesetzt werden kann, noch immer unklar.

Kürzlich enthüllte eine neue Studie der Peking-Universität das Geheimnis hinter CoT aus theoretischer Sicht.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Link zum Papier: https://arxiv.org/abs/2305.15408

Transformer-basiertes großes Sprachmodell ist zu einem universellen Modell in der Verarbeitung natürlicher Sprache geworden, das verschiedene Aufgaben erfüllt weit verbreitet. Mainstream-Großmodelle werden in der Regel auf der Grundlage des autoregressiven Paradigmas implementiert. Insbesondere können verschiedene Aufgaben (z. B. Textübersetzung, Textgenerierung, Beantwortung von Fragen usw.) einheitlich als Sequenzgenerierungsprobleme angesehen werden, bei denen die Eingabe der Frage und die Beschreibung erfolgen der Frage werden in einer Wortfolge (Token) zusammengefasst, die als Eingabeaufforderung (Eingabeaufforderung) bezeichnet wird. Die Antwort auf die Frage kann in die Aufgabe umgewandelt werden, auf der Grundlage der Eingabeaufforderung nachfolgende Wörter bedingt zu generieren.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Eine Vielzahl von Studien im Bereich großer Modelle haben gezeigt, dass sorgfältig gestaltete Aufforderungswörter eine entscheidende Rolle für die Leistung des Modells spielen. Insbesondere bei Rechen- oder Denkaufgaben kann CoT nachweislich die Richtigkeit der generierten Antworten deutlich verbessern. Wie in der Abbildung unten gezeigt, sind bei einer Aufgabe, die mathematisches Denken erfordert, die direkt vom großen Modell generierten Antworten oft falsch (Abbildungen a,b unten). Wenn Sie jedoch die Eingabeaufforderungen so ändern, dass das große Modell die gesamte Denkkette ausgibt (Zwischenableitungsschritte), erhalten Sie schließlich die richtige Antwort (c, d unten).

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

In der Praxis gibt es zwei gängige Möglichkeiten, die Gedankenkettenaufforderung umzusetzen: Eine besteht darin, der Aufforderung einen bestimmten Satz hinzuzufügen, z. B. „Lass uns Schritt für Schritt denken“, um sie auszulösen (wie gezeigt). Die andere Möglichkeit besteht darin, dem großen Modell die Simulation des entsprechenden Ableitungsprozesses zu ermöglichen, indem eine kleine Anzahl von Beispielen für die Demonstration der Denkkette bereitgestellt wird (wie in Abbildung d oben dargestellt).

Obwohl CoT in einer Vielzahl von Experimenten bemerkenswerte Leistungen erbracht hat, bleibt der theoretische Mechanismus dahinter ein Rätsel. Einerseits weisen große Modelle tatsächlich inhärente theoretische Mängel bei der direkten Beantwortung von Fragen zu Mathematik, Argumentation usw. auf? Warum kann CoT andererseits die Fähigkeiten großer Modelle bei diesen Aufgaben verbessern? Dieser Beitrag beantwortet die oben gestellten Fragen aus theoretischer Sicht.

Konkret untersuchen Forscher CoT aus der Perspektive der Modellausdrucksfähigkeit: Für mathematische Aufgaben und allgemeine Entscheidungsaufgaben untersucht dieser Artikel die Ausdrucksfähigkeit des Transformer-Modells basierend auf Autoregression in den folgenden zwei Aspekten: (1) Generieren Antworten direkt zu beantworten und (2) vollständige Lösungsschritte mithilfe von CoT zu generieren.

CoT ist der Schlüssel zur Lösung mathematischer Probleme

Große Modelle, die durch GPT-4 repräsentiert werden, haben schockierende mathematische Fähigkeiten bewiesen. Beispielsweise kann es die meisten Mathematikaufgaben in der Oberstufe richtig lösen und ist sogar zu einem Forschungsassistenten für Mathematiker geworden.

Um die mathematischen Fähigkeiten großer Modelle zu untersuchen, wurden in diesem Artikel zwei sehr grundlegende, aber zentrale mathematische Aufgaben ausgewählt: Arithmetik und Gleichungen (die folgende Abbildung enthält Beispiele für die Eingabe und Ausgabe dieser beiden Aufgaben). Da sie grundlegende Komponenten für die Lösung komplexer mathematischer Probleme sind, können wir durch die Untersuchung dieser beiden zentralen mathematischen Probleme ein tieferes Verständnis der Fähigkeiten großer Modelle für allgemeine mathematische Probleme erlangen.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Die Forscher untersuchten zunächst, ob Transformer Antworten auf die oben genannten Fragen ausgeben kann, ohne Zwischenschritte auszugeben. Sie betrachteten eine Annahme, die sehr mit der Realität übereinstimmt – einen Transformator mit logarithmischer Genauigkeit, das heißt, jedes Neuron des Transformators kann nur eine Gleitkommazahl mit begrenzter Genauigkeit darstellen (die Genauigkeit beträgt log n Bits), wobei n die maximale Länge ist des Satzes. Diese Annahme kommt der Realität sehr nahe, zum Beispiel ist in GPT-3 die Maschinengenauigkeit (16 oder 32 Bit) normalerweise viel kleiner als die maximale Länge des Ausgabesatzes (2048).

Unter dieser Annahme haben die Forscher ein im Kern unmögliches Ergebnis bewiesen: Für ein autoregressives Transformer-Modell mit einer konstanten Schicht und einer Breite von d ist es bei der Lösung der beiden oben genannten mathematischen Probleme durch direkte Ausgabe von Antworten erforderlich Verwenden Sie extrem große Modellbreite d. Insbesondere muss d mit zunehmender Eingabelänge n größer als das Polynom werden.

Der wesentliche Grund für dieses Ergebnis ist, dass es für die beiden oben genannten Probleme keinen effizienten parallelen Algorithmus gibt, sodass Transformer sie als typisches paralleles Modell nicht lösen kann. Der Artikel verwendet die Schaltungskomplexitätstheorie in der theoretischen Informatik, um den obigen Satz rigoros zu beweisen.

Was passiert also, wenn das Modell die Antwort nicht direkt ausgibt, sondern die Zwischenableitungsschritte in Form der obigen Abbildung ausgibt? Die Forscher bewiesen außerdem durch Konstruktion, dass, wenn das Modell Zwischenschritte ausgeben kann, ein autoregressives Transformer-Modell fester Größe (unabhängig von der Eingabelänge n) die beiden oben genannten mathematischen Probleme lösen kann. Ein Vergleich der vorherigen Ergebnisse zeigt, dass das Hinzufügen von CoT die Ausdrucksfähigkeit großer Modelle erheblich verbessert. Darüber hinaus vermittelten die Forscher ein intuitives Verständnis dafür: Dies liegt daran, dass die Einführung von CoT die generierten Ausgabewörter kontinuierlich an die Eingabeschicht zurückmeldet, was die effektive Tiefe des Modells erheblich erhöht und es proportional zur Ausgabelänge von CoT macht. Dadurch wurde die Effizienz des Modells erheblich verbessert. Die parallele Komplexität von Transformer wurde erheblich verbessert.

CoT ist der Schlüssel zur Lösung allgemeiner Entscheidungsprobleme

Zusätzlich zu mathematischen Problemen untersuchten die Forscher außerdem die Fähigkeit von CoT, allgemeine Aufgaben zu lösen. Ausgehend vom Entscheidungsproblem betrachteten sie einen allgemeinen Rahmen zur Lösung von Entscheidungsproblemen, der als dynamische Programmierung bezeichnet wird.

Die Grundidee der dynamischen Programmierung (DP) besteht darin, ein komplexes Problem in eine Reihe kleiner Teilprobleme zu zerlegen, die nacheinander gelöst werden können. Durch die Zerlegung des Problems wird sichergestellt, dass zwischen den verschiedenen Teilproblemen eine signifikante Wechselbeziehung (Überlappung) besteht, sodass jedes Teilproblem mithilfe der Antworten auf die vorherigen Teilprobleme effizient gelöst werden kann.

Die längste aufsteigende Teilfolge (LIS) und die Lösung des Bearbeitungsabstands (ED) sind zwei berühmte DP-Probleme, die im Buch „Einführung in Algorithmen“ vorgeschlagen werden. Die folgende Tabelle listet die Zustandsräume und Übergänge dieser beiden Probleme auf der Funktion.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Forscher haben bewiesen, dass das autoregressive Transformer-Modell eine vollständige dynamische Programmier-Denkkette in der Reihenfolge der Lösung von Unterproblemen ausgeben kann, sodass es für alle lösbaren Aufgaben ausgegeben werden kann dynamische Programmierung Richtige Antwort. Ebenso zeigten die Forscher weiter, dass generative Denkketten notwendig sind: Für viele schwierige dynamische Programmierprobleme kann ein Transformer-Modell mit konstanter Schicht und Polynomgröße nicht direkt die richtige Antwort ausgeben. Der Artikel liefert ein Gegenbeispiel zum Problem des kontextfreien Grammatikmitgliedschaftstests.

Experimente

Die Forscher entwarfen schließlich eine große Anzahl von Experimenten, um die obige Theorie zu verifizieren, wobei sie vier verschiedene Aufgaben berücksichtigten: die Auswertung arithmetischer Ausdrücke, die Lösung linearer Gleichungen, die Lösung der längsten aufsteigenden Teilfolge und die Lösung der Bearbeitungsdistanz.

Experimentelle Ergebnisse zeigen, dass ein dreischichtiges autoregressives Transformer-Modell beim Training mit CoT-Daten bei allen Aufgaben eine nahezu perfekte Leistung erzielen konnte. Die direkte Ausgabe der richtigen Antwort ist jedoch bei allen Aufgaben schlecht (auch bei tieferen Modellen). Dieses Ergebnis zeigt deutlich die Fähigkeit des autoregressiven Transformators, eine Vielzahl komplexer Aufgaben zu lösen, und zeigt die Bedeutung von CoT bei der Lösung dieser Aufgaben.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Die Forscher untersuchten auch, ob das erlernte autoregressive Modell weiter auf längere Daten extrapoliert werden kann. Sie erstellten einen CoT-Trainingsdatensatz für die Operationsaufgabe, wobei die Anzahl der Operatoren zwischen 1 und 15 lag, und testeten das Modell anhand von Ausdrücken mit der Anzahl der Operatoren n ∈ {16, 17, 18}. Die Ergebnisse sind in Abbildung 3 unten dargestellt. Das dreischichtige Transformer-Modell des Forschers funktioniert bei längeren Sequenzen immer noch gut, was darauf hindeutet, dass das Modell den zugrunde liegenden Mechanismus tatsächlich bis zu einem gewissen Grad gelernt hat. Daher glauben die Forscher, dass Modelle, die auf mehr Daten unterschiedlicher Länge trainiert wurden, letztendlich die vollständigen Regeln der Arithmetik offenbaren können.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Das obige ist der detaillierte Inhalt vonWie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Der neue KI -Assistent von Meta: Produktivitätswahrnehmung oder Zeitspüle?May 01, 2025 am 11:18 AM

Meta hat sich mit Partnern wie Nvidia, IBM und Dell zusammengetan, um die Einsatzintegration von Lama Stack auf Unternehmensebene zu erweitern. In Bezug auf die Sicherheit hat Meta neue Tools wie Llam Guard 4, Llamafirewall und Cyberseceval 4 auf den Markt gebracht und das Lama Defenders -Programm gestartet, um die KI -Sicherheit zu verbessern. Darüber hinaus hat Meta 1,5 Millionen US -Dollar an Lama -Impact -Zuschüssen an 10 globale Institutionen verteilt, darunter Startups, die an der Verbesserung der öffentlichen Dienste, der Gesundheitsversorgung und der Bildung arbeiten. Die neue Meta -AI -Anwendung von Lama 4, die als Meta AI konzipiert wurde

80% der Gen -Zers würden eine KI heiraten: StudiumMay 01, 2025 am 11:17 AM

Joi Ai, eine Firma Pionierin der Human-AI-Interaktion, hat den Begriff "AI-Lationships" eingeführt, um diese sich entwickelnden Beziehungen zu beschreiben. Jaime Bronstein, ein Beziehungstherapeut bei Joi AI, stellt klar, dass diese nicht dazu gedacht sind, das Menschen C zu ersetzen C.

AI verschlimmert das Bot -Problem des Internets. Dieses Startup von 2 Milliarden US -Dollar liegt an vorderster FrontMay 01, 2025 am 11:16 AM

Online -Betrug und Bot -Angriffe stellen eine bedeutende Herausforderung für Unternehmen dar. Einzelhändler bekämpfen Bots, die Produkte horten, Banken Battle Account Takeovers und Social -Media -Plattformen kämpfen mit Imitatoren. Der Aufstieg von AI verschärft dieses Problem, das Rende

Verkauf an Roboter: Die Marketing -Revolution, die Ihr Geschäft herstellt oder brechen wirdMay 01, 2025 am 11:15 AM

AI -Agenten sind bereit, das Marketing zu revolutionieren und möglicherweise die Auswirkungen früherer technologischer Verschiebungen zu übertreffen. Diese Agenten, die einen signifikanten Fortschritt in der generativen KI darstellen, verarbeiten nicht nur Informationen wie Chatgpt, sondern auch Actio

Wie die Computer -Vision -Technologie NBA Playoff amtiertMay 01, 2025 am 11:14 AM

Die Auswirkungen der KI auf wichtige Entscheidungen von NBA Game 4 Zwei entscheidende NBA-Matchups in Game 4 zeigten die bahnbrechende Rolle der KI beim Amtieren. Im ersten Fall führte Denvers verpasste Drei-Zeiger von Nikola Jokic zu einer Gasse in der letzten Sekunden von Aaron Gordon. Sony's Haw

Wie KI die Zukunft der regenerativen Medizin beschleunigtMay 01, 2025 am 11:13 AM

Traditionell forderte die weltweit expandierende Expertin der regenerativen Medizin umfangreiche Reisen, praktische Ausbildung und jahrelange Mentoring. Jetzt verändert AI diese Landschaft, überwindet geografische Einschränkungen und beschleunigte Fortschritte durch EN

Key Takeaways von Intel Foundry Direct Connect 2025May 01, 2025 am 11:12 AM

Intel arbeitet daran, seinen Herstellungsprozess in die führende Position zurückzugeben, während er versucht, Fab -Semiconductor -Kunden anzuziehen, um Chips an seinen Fabriken herzustellen. Zu diesem Zweck muss Intel mehr Vertrauen in die Branche aufbauen, um nicht nur die Wettbewerbsfähigkeit seiner Prozesse zu beweisen, sondern auch zu demonstrieren, dass Partner Chips in einer vertrauten und ausgereiften Workflow, konsistente und sehr zuverlässige Weise herstellen können. Alles, was ich heute höre, lässt mich glauben, dass Intel dieses Ziel zu diesem Ziel bewegt. Die Keynote -Rede des neuen CEO Tan Libai begann den Tag. Tan Libai ist unkompliziert und prägnant. Er skizziert mehrere Herausforderungen in den Foundry -Diensten von Intel und die Maßnahmen, die Unternehmen ergriffen haben, um diese Herausforderungen zu bewältigen und einen erfolgreichen Weg für Intel Foundry Services in Zukunft zu planen. Tan Libai sprach über den Prozess des OEM -Dienstes von Intel, um Kunden mehr zu machen

Ai schief gegangen? Jetzt ist dafür eine Versicherung dafürMay 01, 2025 am 11:11 AM

Die Chaucer Group, ein globales Spezialversicherungsunternehmen, und Armilla AI haben sich mit den wachsenden Bedenken hinsichtlich der KI-Risiken befassen, und Armilla AI haben sich zusammengeschlossen, um ein neuartiges Versicherungsprodukt von Drittanbietern (TPL) einzubringen. Diese Richtlinie schützt Unternehmen vor

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

4 Wochen vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vorByDDD

Inzoi: Wie man sich für Schule und Universität bewerbt

1 Monate vorByDDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Wo finden Sie den Site Office -Schlüssel in Atomfall

4 Wochen vorByDDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.