Heim >Technologie-Peripheriegeräte >KI >Aus der Thought Chain CoT entwickelte sich die Thought Map GoT, und eine schnelle technische Technologie, die besser war als der Thought Tree, war geboren.
Damit große Sprachmodelle (LLM) ihre Fähigkeiten voll ausschöpfen können, ist ein effektives Prompt-Design unerlässlich. Aus diesem Grund ist sogar das aufstrebende Feld des Prompt-Engineerings entstanden.
Unter den verschiedenen Prompt-Design-Lösungen hat Chain of Thinking (CoT) mit seinen leistungsstarken Argumentationsfunktionen aufgrund seines verbesserten CoT-SC und weiteren Tree of Thinking (ToT) auch viel gewonnen der Aufmerksamkeit.
Kürzlich hat ein Forschungsteam der ETH Zürich, Cledar und der Technischen Universität Warschau eine weitere Idee vorgeschlagen: Maps of Mind (GoT). Die Fähigkeit, von Ketten über Bäume bis hin zu Diagrammen zu denken und einen Argumentationsprozess für LLM aufzubauen, wurde kontinuierlich verbessert, und Forscher haben dies auch durch Experimente bewiesen. Sie haben auch ihre eigene Implementierung des GoT-Frameworks veröffentlicht.
Forschungspapier: https://arxiv.org/pdf/2308.09687v2.pdf
Offizielle Implementierung: https://github.com/spcl/graph-of-thoughts
Papierübersicht
Große Sprachmodelle werden zur dominierenden Technologie in der Welt der künstlichen Intelligenz. Die in den letzten Jahren rasant weiterentwickelten Modelle basieren überwiegend auf reinen Decoder-Transformer-Varianten wie GPT, PaLM oder LLaMA.
Bei der Lösung verschiedener LLM-Aufgaben ist Prompt Engineering Design eine Methode, mit der Ressourcen effizient genutzt werden können. Einfach ausgedrückt ist eine Beschreibung der Aufgabe in der an das LLM gesendeten Eingabe enthalten. Lässt sich die Aufgabe in geeigneter Form beschreiben, kann LLM sie mit Hilfe seines autoregressiven tokenbasierten Mechanismus zur Textgenerierung lösen. Solche Eingabeaufforderungen können Beispielaufgaben mit Antworten enthalten (Few-Shot-Eingabeaufforderungsdesign, auch als kontextuelles Lernen (ICL) bezeichnet) oder überhaupt keine Beispielaufgaben enthalten (Zero-Shot-Eingabeaufforderungsdesign, wie Untersuchungen und Anwendungen der letzten Jahre gezeigt haben). dass, Dieser Mechanismus kann verwendet werden, um viele Arten von Aufgaben zu lösen, die Mathematik, gesunden Menschenverstand oder symbolisches Denken umfassen.
Chain of Thought (CoT) ist eine Methode zum Entwerfen von Eingabeaufforderungen, d. h. zusätzlich zur Eingabe und Ausgabe der Die Eingabeaufforderung umfasst auch die Zwischenschritte des Denkens (Zwischendenken). Untersuchungen zeigen, dass CoT die Fähigkeit von LLM erheblich verbessern kann, sodass einige schwierige Probleme gelöst werden können Forscher haben auch CoT verbessert und vorgeschlagen, die konsistente Methode (CoT-SC) zu verwenden. Diese Lösung besteht darin, mehrere CoTs zu generieren und dann das beste Ergebnis auszuwählen ), was über einen Baum erfolgt, um den LLM-Argumentationsprozess zu modellieren. Dies ermöglicht es dem Modell, unterschiedliche Denkpfade zu nutzen, wie z. B. das Zurückverfolgen des Argumentationsprozesses auf der Grundlage schlechter Ergebnisse Die Strenge des Denkprozesses schränkt die Denkfähigkeit von Prompt erheblich ein. Weitere Informationen finden Sie im Artikel auf dieser Website Zürich, Cledar. Dieses Forschungsteam der Technischen Universität Warschau ist davon überzeugt, dass die Konstruierung des LLM-Denkens in eine beliebige Graphenstruktur die Fähigkeiten von Prompt erheblich verbessern kann. Sie sagten, dass diese Idee von einer Vielzahl von Phänomenen inspiriert wurde, wie z B. menschliche Denkmethoden, Gehirnstrukturen und Algorithmenausführungsmethoden
Beim Denken folgen Menschen nicht nur einer Denkkette wie CoT oder versuchen mehrere verschiedene Wege wie ToT, sondern bilden einen komplexeren Weg, zum Beispiel eine Person Erforschen Sie möglicherweise zuerst eine Gedankenkette, gehen Sie dann zurück und erforschen Sie eine andere, und stellen Sie dann möglicherweise fest, dass eine Idee aus der vorherigen Kette mit der aktuellen Kette kombiniert werden kann, um voneinander zu lernen und eine neue Lösung zu erhalten Komplexe Netzwerke, die graphenartige Muster aufweisen, wie z. B. zyklische Muster, offenbaren auch das Muster des Netzwerks, das häufig als gerichteter azyklischer Graph dargestellt werden kann. Die Autoren gaben an, dass dies der Fall ist Transformation wird im LLM-Denken verwendet, es wird erwartet, dass sie eine leistungsstarke Methode zum Entwerfen von Eingabeaufforderungen schafft, aber diese Transformation kann nicht auf natürliche Weise durch CoT oder ToT ausgedrückt werden
Dann beobachteten sie: Wenn der Argumentationsprozess von LLM als Diagramm modelliert wird, Dann können diese und viele andere Denktransformationen auf natürliche Weise realisiert werden. Basierend auf dieser Beobachtung schlugen sie den GoT/Graph of Thoughts vor, der durch das Netzwerk formales Denken implementiert werden kann, um die Fähigkeiten von LLM zu verbessern. In GoT wird ein LLM-Gedanke als Scheitelpunkt modelliert und die Abhängigkeiten zwischen Scheitelpunkten werden als Kanten modelliert. Mit GoT können beliebige Ideen aggregiert werden, indem Eckpunkte mit mehr als einer Eingabekante konstruiert werden. Insgesamt kann die von GoT verwendete Graphenabstraktionsmethode CoT und ToT nahtlos auf komplexere Denkmodelle verallgemeinern, und dieser Prozess erfordert keine Aktualisierung des Modells.
Allerdings gibt es einige Designherausforderungen, die gelöst werden müssen, um GoT tatsächlich zu implementieren. Was ist beispielsweise die beste Diagrammstruktur für verschiedene Aufgaben? Was ist der beste Ansatz für konvergentes Denken, um die Genauigkeit zu maximieren und die Kosten zu minimieren?
Um diese und weitere Fragen zu beantworten, haben diese Forscher eine modulare Architektur für die Implementierung von GoT entworfen. Das Design weist zwei große Highlights auf.
Erstens kann eine feinkörnige Kontrolle jedes Denkens erreicht werden. Dies gibt Benutzern die volle Kontrolle über Gespräche mit LLM und die Verwendung fortschrittlicher Gedankentransformationen, wie z. B. die Kombination der beiden vielversprechendsten Gedanken aus einer laufenden Schlussfolgerung, um eine neue zu erhalten.
Zweitens ist diese Architektur auf Skalierbarkeit ausgelegt – sie kann nahtlos für neue Denktransformationen, Argumentationsmodi (d. h. Mind Maps) und LLM-Modelle erweitert werden. Dadurch können Benutzer mit GoT schnell Prototypen für neue Designideen erstellen und gleichzeitig mit verschiedenen Modellen wie GPT-3.5, GPT-4 oder Llama-2 experimentieren.
Die Forscher demonstrierten auch einige Anwendungsfälle von GoT (Sortierung, Schlüsselwortzählung von Zusammenfassungen, Mengenoperationen, Zusammenführen von Dokumenten) und erläuterten auch, wie diese mithilfe eines graphbasierten Paradigmas implementiert werden können. Sie evaluieren GoT experimentell und demonstrieren seine Vorteile gegenüber anderen hochmodernen Methoden.
Forscher sagen, dass GoT insgesamt besonders für Aufgaben geeignet ist, die auf natürliche Weise in kleinere Teilaufgaben zerlegt werden können und diese Teilaufgaben separat gelöst und dann zu einer endgültigen Lösung zusammengeführt werden können. In dieser Hinsicht schneidet GoT besser ab als andere Lösungen. Bei der Sortieraufgabe ist GoT beispielsweise um etwa 70 % bzw. 62 % besser als CoT und ToT, während die Kosten mehr als 31 % niedriger sind als ToT.
Tabelle 1 gibt einen qualitativen Vergleich zwischen GoT und anderen Prompt-Design-Lösungen. GoT ist die einzige Lösung, die jede graphbasierte Denktransformation (z. B. Aggregation) innerhalb einer Eingabeaufforderung umsetzen kann und damit alle bisherigen Lösungen umfasst.
Sie haben auch einen weiteren Beitrag, der darin besteht, eine neue Bewertungsmetrik vorzuschlagen – das Volumen eines Gedankens, das zur Bewertung von Prompt-Design-Strategien verwendet werden kann. Das Ziel der Verwendung dieser Metrik besteht laut den Forschern darin, die Unterschiede zwischen Prompt-Design-Optionen besser zu verstehen.
Für einen gegebenen Gedanken v bezieht sich die Kapazität von v auf die Anzahl der LLM-Gedanken, auf deren Grundlage der Benutzer v mithilfe gerichteter Kanten erhalten kann. Intuitiv sind dies alle LLM-Ideen, von denen erwartet wird, dass sie zu v beitragen.
Der Autor hat durch Untersuchungen gezeigt, dass GoT durch die Integration von Denktransformationstechnologien wie Aggregation die Denkkapazität deutlich größer machen kann als andere Lösungen.
GoT Framework
Im Folgenden finden Sie eine detaillierte Einführung in das GoT Framework. Das schematische Diagramm ist in Abbildung 1 dargestellt, die auch schematische Diagramme anderer Prompt-Design-Strategien enthält.
In mathematischer Form kann GoT als Tupel (G, T, E, R) modelliert werden, wobei G der LLM-Argumentationsprozess (d. h. alle LLM-Gedanken und ihre Beziehungen im Kontext) und T die Möglichkeit ist Bei Gedankentransformationen ist E die Bewertungsfunktion, mit der die Gedankenbewertung ermittelt wird, und R ist die Rangfolgefunktion, mit der die relevantesten Gedanken ausgewählt werden.
Inferenzprozess
Hier wird der Inferenzprozess als gerichteter Graph G = (V, E) modelliert, wobei V eine Menge von Eckpunkten und E ⊆ V × V eine Menge von Kanten ist. G ist gerichtet, also sind Kanten Teilmengen geordneter Scheitelpunktpaare E ⊆ V × V . Ein Scheitelpunkt enthält eine Lösung für das aktuelle Problem, unabhängig davon, ob es sich um das Anfangs-, Zwischen- oder Endproblem handelt. Die genaue Form dieses Denkens hängt vom Anwendungsfall ab; es kann sich um einen Textabschnitt (bei einer Schreibaufgabe) oder um eine Folge von Werten (bei einer Sortieraufgabe) handeln. Die gerichtete Kante (t_1, t_2) stellt die Art und Weise dar, wie der Gedanke t_2 unter Verwendung von t_1 als „direkter Eingabe“ konstruiert wird, d. h. indem der LLM explizit angewiesen wird, t_1 zum Generieren von t_2 zu verwenden.
In einigen Anwendungsfällen gehören Diagrammknoten zu unterschiedlichen Kategorien. Bei einer Schreibaufgabe modellieren beispielsweise einige Knoten den Plan zum Schreiben eines Textsegments, während andere Knoten das tatsächliche Textsegment modellieren. In diesem Fall verwendet GoT einen heterogenen Graphen G = (V, E, c), um die LLM-Inferenz zu modellieren, wobei c Scheitelpunkte V ihren jeweiligen Klassen C zuordnet (im obigen Fall C = {plan, par}). Auf diese Weise kann jeder Knoten v verschiedene Aspekte des Denkens modellieren.
G ist also mit dem LLM-Inferenzprozess verbunden. Um diesen Prozess zu erleichtern, kann der Benutzer Thought Shift auf G verwenden. Ein Beispiel für eine solche Transformation: Den Gedanken mit der bisher höchsten Punktzahl zu einem neuen verschmelzen. Ein anderes Beispiel ist das Schleifen eines Gedankens, um ihn zu verstärken. Beachten Sie, dass diese Transformationen den Satz der in CoT, CoT-SC oder ToT verfügbaren Transformationen strikt erweitern.
Denktransformation
Dank der Verwendung graphbasierter Modelle zur Argumentation kann GoT neue Denktransformationen erreichen. Forscher nennen dies eine graphengestützte Transformation. Beispielsweise können in einer Schreibaufgabe mehrere Eingabeartikel zu einer zusammenhängenden Zusammenfassung zusammengefasst werden. Beim Sortieren können mehrere sortierte numerische Unterarrays zu einem endgültigen sortierten Array kombiniert werden. Abbildung 2 zeigt ein Beispiel für Aggregation und Generierung.
Mathematisch gesehen kann jede dieser Transformationen als T (G, p_θ) modelliert werden, wobei G = (V, E) der Graph ist, der den aktuellen Zustand der Inferenz widerspiegelt, und p_θ das verwendete LLM ist. T modifiziert G typischerweise durch das Hinzufügen neuer Scheitelpunkte und ihrer eingehenden Kanten. Dann gilt G′ = T (G, p_θ) = (V′, E′), wobei V′ = (V ∪ {V^+}) {V^−} und E′ = (E ∪ {E^+ } ) {E^−}. V^+ und E^+ sind neue Eckpunkte und Kanten, die in G eingefügt werden. Sie modellieren neues Denken bzw. ihre Abhängigkeiten.
Um die Ausdruckskraft von GoT zu maximieren, können Benutzer auch Gedanken löschen, indem sie die entsprechenden zu löschenden Eckpunkte und Kanten angeben (V^− bzw. E^−). Hier liegt es in der Verantwortung des Benutzers, sicherzustellen, dass die Mengen V^+, E^+, V^− und E^− konsistente Transformationen aufweisen (der Benutzer wird beispielsweise nicht versuchen, nicht vorhandene Scheitelpunkte zu löschen). Dies ermöglicht die nahtlose Integration von Prompt-Lösungen, bei denen der Benutzer nicht verbesserte Teile der Inferenz entfernen kann, um Platz im Kontext zu sparen. Die spezifische Form von
T und wie es G beeinflusst, hängt von der spezifischen Transformation ab. Im Folgenden werden zunächst die durch die Hauptgrafiken ermöglichten Denktransformationen im Detail vorgestellt und anschließend beschrieben, wie GoT die Transformationen früherer Lösungen einbezieht. Sofern nicht anders angegeben, gilt V^− = E^− = ∅.
Aggregationstransformation: Benutzer können GoT verwenden, um beliebige Gedanken zu neuen Gedanken zusammenzufassen, um von den Stärken des anderen zu lernen. Hier ist ein Blick auf die Grundform, die nur einen neuen Scheitelpunkt erstellt: V^+ = {v^+} und E^+ = {(v_1, v^+), ..., (v_k, v^+)}, wobei v_1 , ..., v_k die k Gedanken sind, die zusammengeführt werden. Allgemeiner gesagt ermöglicht dies die Aggregation von Denkpfaden, also längeren Gedankenketten statt nur einzelner Gedanken. Mithilfe eines Graphenmodells kann eine Aggregationstransformation einfach implementiert werden: durch Hinzufügen ausgehender Kanten von den Eckpunkten v_1, ..., v_k, die den letzten Gedanken in mehreren Ketten modellieren, um auf einen einzelnen Gedanken v^+ zu verweisen, der diese Ketten kombiniert.
Transformation verfeinern: Eine weitere Denktransformation besteht darin, das aktuelle Denken v durch Modifizieren des Inhalts zu verfeinern: V^+ = {} und E^+ = {(v, v)}. Diese Schleife im Diagramm stellt eine iterative Version des Denkens dar, die dieselben Zusammenhänge wie der ursprüngliche Gedanke aufweist.
Transformation generieren: Schließlich kann der Benutzer auch einen oder mehrere neue Gedanken basierend auf einem vorhandenen Einzelgedanken generieren v. In dieser Kategorie sind ähnliche Argumentationsschritte aus früheren Schemata wie ToT oder CoT-SC enthalten. Mathematisch gesehen gibt es
Ideen bewerten und bewerten
Der Zweck der Ideenbewertung besteht darin, zu verstehen, ob die aktuelle Lösung gut genug ist. Die Punktzahl wird als allgemeine Funktion E (v, G, p_θ) modelliert, wobei v der zu bewertende Gedanke ist. Um E so allgemein wie möglich zu gestalten, wird der gesamte Prozess des Denkens (G) auch in E verwendet, da in einigen Bewertungsszenarien die Ergebnisse möglicherweise mit anderen Denkweisen in Zusammenhang stehen.
GoT kann auch gerankt werden. Zur Modellierung nutzten die Forscher die Funktion R (G, p_θ, h), wobei h die Anzahl der höchstrangigen Gedanken in G angibt, die von R zurückgegeben werden sollen. Während die genaue Form von R vom Anwendungsfall abhängt, besteht ein einfacher, aber effektiver Ansatz, der am häufigsten verwendet wird, darin, die h Gedanken mit den höchsten Bewertungen zurückzugeben, d. h. v_1, ..., v_h = R (G, p_θ, h) .
Die genaue Form von E und R hängt vom Anwendungsfall ab.
Systemarchitektur und Skalierbarkeit
GoT besteht aus einer Reihe interaktiver Module, siehe Abbildung 3 (blauer Teil). Diese Module sind Prompter (Nachrichten für LLM vorbereiten), Parser (Parser, Informationen in LLM-Antworten extrahieren), Scoring-Modul (LLM-Antworten validieren und bewerten), Controller (Controller, koordinieren den gesamten Argumentationsprozess und entscheiden, wie mit der Argumentation fortgefahren werden soll). Der Controller enthält zwei weitere wichtige Komponenten: Graph of Operations (GoO) und Graph Reasoning State (GRS). Ein GoO ist eine statische Struktur, die die Graphzerlegung für eine bestimmte Aufgabe spezifiziert, d. h. sie spezifiziert die auf das LLM-Denken angewendeten Transformationen sowie deren Reihenfolge und Abhängigkeiten. Das GRS ist eine dynamische Struktur, die den Zustand des laufenden LLM-Inferenzprozesses (die Geschichte seines Denkens und seiner Zustände) aufrechterhält.
Anwendungsfallbeispiele
Forscher beschreiben einige Anwendungsfälle von GoT, darunter Sortierung, Mengenoperationen, Schlüsselwortzählung und Dokumentzusammenführung; Abbildung 4 unten ist ein Beispiel für die Diagrammzerlegung im Sortieranwendungsfall von GoT. Wir werden die Anwendungsfälle hier nicht im Detail vorstellen. Einzelheiten finden Sie im Originalpapier.
Der Kompromiss zwischen Latenz und Kapazität
Der Kompromiss zwischen Latenz (die Anzahl der Sprünge, um einen bestimmten endgültigen Gedanken in der Mind Map zu erreichen) und Kapazität ist für Forscher ebenfalls sehr wichtig haben gezeigt, dass GoT unter diesem Kompromiss leidet. Es ist auch besser als die vorherige Prompt-Design-Lösung. In diesem Artikel wird eine neue Metrik definiert: die Denkkapazität. Dabei handelt es sich um die Anzahl früherer LLM-Gedanken, die einen bestimmten Gedanken beeinflussen können. Mathematisch gesehen ist die Gedankenkapazität t die Anzahl der Gedanken, die Pfade zwischen t und t in der Gedankenkarte haben. Die Forscher gingen davon aus, dass die Kosten für die Ausgabe eines einzelnen Gedankens O (1) betragen, und legten die Gesamtkosten jeder prompten Lösung auf Θ(n) fest.
Die Struktur verschiedener Schemata ist wie folgt. CoT-SC besteht aus k unabhängigen Ketten, die aus einem einzigen Ausgangsgedanken stammen. ToT ist ein vollständiger K-ary-Baum. In GoT wird ein vollständiger k-ary-Baum zu seinen Blattknoten hinzugefügt, mit einem „Spiegel“-k-ary-Baum – die Größe ist gleich, aber die Kanten sind umgekehrt.
Eine detaillierte Analyse finden Sie in Tabelle 2. CoT hat eine größere Kapazität, bis zu N, aber auch hohe Latenzkosten von N. CoT-SC reduziert die Latenz um den Faktor k (entsprechend seinem Verzweigungsfaktor), aber gleichzeitig wird seine Kapazität um den Faktor k reduziert. Die Latenz von ToT beträgt log_k N, aber die Kapazität ist ebenfalls gering. GoT ist die einzige Lösung, die eine niedrige Latenz log_k N und eine hohe Kapazität N erreichen kann. GoT ist dazu in der Lage, weil es die Gedankenaggregation nutzt und so aus allen anderen Zwischengedanken in der Graphenzerlegung zum endgültigen Gedanken gelangen kann.
Bewertung
Die Forscher demonstrierten durch Experimente die Vorteile von GoT gegenüber anderen Lösungen. Der wichtigste Vergleich besteht zwischen GoT und ToT, da die Leistung von ToT bereits besser ist als bei anderen Lösungen. Natürlich haben sie trotzdem einige Experimente mit IO, CoT und CoT-SC durchgeführt.
Die Abbildungen 5 (Sortieren), 6 (Schnittmenge festlegen), 7 (Schlüsselwortzählung) und 8 (Zusammenführen von Dokumenten) zeigen die experimentellen Ergebnisse.
Insgesamt hat GoT bei allen experimentell evaluierten Benchmarks eine bessere Ausgabequalität als ToT und erzielt außerdem geringere Inferenzkosten.
Das obige ist der detaillierte Inhalt vonAus der Thought Chain CoT entwickelte sich die Thought Map GoT, und eine schnelle technische Technologie, die besser war als der Thought Tree, war geboren.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!