Heim >Technologie-Peripheriegeräte >KI >ACL 2024 |. Bei der mathematischen Bewertung von 25 Open- und Closed-Source-Modellen hat GPT-3.5-Turbo knapp bestanden

ACL 2024 |. Bei der mathematischen Bewertung von 25 Open- und Closed-Source-Modellen hat GPT-3.5-Turbo knapp bestanden

PHPzOriginal: 2024-07-19 13:53:411144Durchsuche

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Der Autor dieses Artikels ist von der University of Hong Kong und Tencent. Autorenliste: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Unter ihnen ist der Erstautor Li Qintong Doktorand am Natural Language Processing Laboratory der Universität Hongkong. Seine Forschungsinteressen umfassen die Erzeugung natürlicher Sprache und das Denken von Texten. Er und der Doktorand Zhao Xueliang stehen unter der Leitung von Professor Kong Lingpeng . Leyang Cui und Wei Bi sind leitende Forscher bei Tencent.

Vorwort

Die außergewöhnliche Fähigkeit großer Sprachmodelle (LLMs) bei der Lösung von Problemen wird immer deutlicher. Ein Phänomen, das in letzter Zeit Aufmerksamkeit verdient, ist, dass diese Modelle in mehreren Benchmark-Tests zum mathematischen Denken erstaunliche Ergebnisse erzielt haben. Am Beispiel von GPT-4 schnitt es im schwierigen Testsatz GSM8K für Grundschulanwendungen [1] mit einer Genauigkeit von über 90 % gut ab. Gleichzeitig haben viele Open-Source-Modelle auch eine beeindruckende Leistung gezeigt, mit Genauigkeitsraten von über 80 %.

Bei der Verwendung stellen wir jedoch häufig fest, dass LLMs bei geringfügigen Änderungen der mathematischen Probleme einige Fehler auf niedriger Ebene aufweisen können, wie in der folgenden Abbildung dargestellt:

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

^{Abbildung 1: GPT- 3.5-Turbo Ein mathematisches Problem wurde korrekt gelöst (links), aber als dem ursprünglichen Problem (rechts) eine Einschränkung hinzugefügt wurde, hat Turbo einen Operator missbraucht und einen Fehler gemacht, weil es nicht richtig zwischen „Verlassen“- und „Rückkehr“-Richtung unterschieden hat .}

Wir kommen nicht umhin zu fragen: Erfassen große Sprachmodelle wirklich die Essenz mathematischen Wissens? Wie kommt es, dass sie bei diesen Tests so gut abschneiden? Geht es lediglich darum, oberflächliche Denkmuster in großen Mengen an Trainingsdaten nachzuahmen? Ob LLMs wirklich mathematische Konzepte verstehen, ist immer noch eine Frage, die es wert ist, untersucht zu werden.

Um dieses Problem zu untersuchen, hat der Autor dieses Artikels einen Bewertungsbenchmark GSM-Plus entwickelt. Dieser Test ist darauf ausgelegt, 8 verschiedene feinkörnige mathematische Transformationen an einem Problem durchzuführen, um die Fähigkeit aktueller LLMs bei der Bewältigung grundlegender mathematischer Wortprobleme systematisch zu bewerten. In diesem neuen Benchmark bewertet das Papier 25 verschiedene LLMs, darunter Open-Source- und Closed-Source-Modelle in der Branche, gründlich.

Experimentelle Ergebnisse zeigen, dass GSM-Plus für die meisten LLMs eine herausfordernde Benchmark darstellt. Selbst auf GSM8K konnte GPT-3.5-Turbo eine Genauigkeit von 73,62 % erreichen, auf GSM-Plus hingegen nur eine Genauigkeit von 61,19 %. Diese Arbeit wurde von ACL2024 mit den Werten 4, 4 und 4,5 angenommen.

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

Papiertitel: GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
Papieradresse: https://arxiv.org/pdf/2402.19255
Papierhomepage: https: //qtli.github.io/GSM-Plus/

Hintergrund

Mathematisches Denken ist ein wichtiger Beweis für die Entwicklung künstlicher Intelligenz. Es erfordert ein gründliches Problemverständnis, Strategieentwicklung und rechnerische Ausführungsfähigkeiten. In den letzten Jahren wurden zahlreiche öffentlich verfügbare Datensätze verwendet, um die mathematischen Denkfähigkeiten von Systemen der künstlichen Intelligenz zu bewerten. Frühe mathematische Datensätze konzentrierten sich auf gleichungsbasierte mathematische Probleme. Anschließend wurden schwierigere Datensätze eingeführt, die Mathematikprobleme auf Grund-, Oberschul- und Hochschulniveau abdecken.

Da die Schwierigkeit der Bewertungsdaten immer weiter zunimmt, ist auch die Entwicklung von LLMs sehr schnell geworden. Um die Leistung von LLMs auf dem Gebiet der Mathematik zu verbessern, kann Supervised Fine-Tuning (SFT) eingesetzt werden, um LLMs bei der schnellen Anpassung an das Gebiet der Mathematik zu unterstützen, indem sie anhand verschiedener Aufgabendaten trainieren. In der Argumentationsphase können die mathematischen Fähigkeiten von LLMs auch durch geschickt gestaltete Eingabeaufforderungen (z. B. Chain-of-Thought und Program-of-Thought) effektiv gefördert werden.

Für die meisten LLMs gibt es noch viel Raum für Verbesserungen, wenn es um Mathematikprobleme in der High School und darüber hinaus geht. Im Bereich der Grundschulmathematik haben LLMs jedoch großes Potenzial gezeigt. Da fragen wir uns: Können LLMs in realen Umgebungen immer noch eine hohe Leistung aufrechterhalten?

Adversarial Evaluation Dataset GSM-Plus

Diese Studie zielt darauf ab, einen umfassenden Benchmark GSM-Plus zu starten, um die Robustheit von LLMs bei der Lösung grundlegender mathematischer Probleme systematisch zu untersuchen. Inspiriert von der Taxonomie der Fähigkeit zur Lösung mathematischer Probleme in den Polya-Prinzipien [2] identifiziert dieser Artikel fünf Leitprinzipien für die Erstellung des GSM-Plus-Datensatzes:

Zum leichteren Verständnis verwenden wir hier „Janet's The Duck Legs“. 16 Eier pro Tag. Sie isst jeden Morgen Muffins mit vier Eiern. Sie verkauft die restlichen Eier jeden Tag für 2 Dollar pro Stück.

(1) Numerische Änderung : bezieht sich auf die Änderung numerischer Daten oder ihres Typs. In diesem Artikel werden drei Unterkategorien definiert:

Numerische Substitution: Ersetzen numerischer Werte durch dieselben Ziffern und Typen wie Ersetzen Sie in der Frage „16“ durch „20“.
Ziffernerweiterung: Erhöhen Sie die Anzahl der Ziffern in einem Wert, ersetzen Sie beispielsweise „16“ durch „1600“.
Integer – Dezimal – Bruchkonvertierung: Ersetzen Sie ganze Zahlen durch Dezimalzahlen oder Brüche, konvertieren Sie beispielsweise „2“ in „2,5“.

(2) Arithmetische Änderungen : bezieht sich auf die Einführung zusätzlicher Operationen oder Umkehrungen in mathematische Probleme, ist jedoch nur auf Additions-, Subtraktions-, Multiplikations- und Divisionsoperationen beschränkt:

Operation Erweiterung: Einschränkungen zum ursprünglichen Problem hinzufügen. Fügen Sie beispielsweise eine neue Bedingung hinzu: „Sie verwendet außerdem jeden Tag zwei Eier, um selbstgemachte Haarmasken herzustellen.“
Operationsumkehr: Wandeln Sie einen bekannten Zustand des ursprünglichen Problems in die zu lösenden Variablen für das GSM-Plus-Variantenproblem um. Beispielsweise wird die Aussage der ursprünglichen Frage in Abbildung 2 „2 US-Dollar pro Entenei“ in den Fragesatz der neuen Frage „Was kostet jedes Entenei?“ umgewandelt, während der Fragesatz der ursprünglichen Frage „Wie viele Dollar verdienen Sie jeden Tag auf dem Bauernmarkt?“ wird in bekannte Bedingungen für das neue Problem „Sie verdient 18 Dollar pro Tag auf dem Bauernmarkt“ umgewandelt. (3) Problemverständnis
: Bezieht sich auf die Wiederholung des mathematischen Problems mit anderen Wörtern und Sätzen, ohne die Bedeutung zu ändern, wie zum Beispiel „Janet züchtet einen Entenschwarm, der jeden Tag 16 Enteneier legt. Sie isst drei Enteneier zum Frühstück und dann vier Enteneier, um Muffins zu backen.“ Ihre Freunde. Janet verkauft frische Enteneier für 2 Dollar pro Stück. Wie viel Geld verdient sie jeden Tag, indem sie Enteneier auf dem Bauernmarkt verkauft?

(4) Interferenzeinfügung

: bezieht sich auf das Einfügen von Sätzen, die sich auf das Thema beziehen und numerische Werte enthalten, aber für die Lösung unbrauchbar sind. Gehen Sie zur ursprünglichen Frage, z. B. „Janet möchte auch zwei Enteneier verwenden, um sie zu füttern.“ Glücklicherweise gibt ihre Nachbarin ihr jeden Tag zwei Enteneier, um den Papagei zu füttern.

(5) Kritisches Denken

: Konzentriert sich darauf, ob LLMs die Fähigkeit haben, Fragen zu stellen oder zu zweifeln, wenn bei mathematischen Problemen die notwendigen Bedingungen fehlen, wie zum Beispiel „Janets Enten legen jeden Tag Eier. Sie isst jeden Morgen drei Eier.“ Sie macht vier Eier zum Frühstück und backt jeden Tag Waffeln für ihre Freunde. Die restlichen Eier verkauft sie jeden Tag für 2 Dollar pro Stück auf dem Bauernmarkt.Wie viele Dollar verdient sie jeden Tag auf dem Bauernmarkt? ”.

Basierend auf 1.319 Testfragen von GSM8K erstellt dieses Papier acht Varianten für jede Frage, was zu einem GSM-Plus-Datensatz mit 10.552 Fragevarianten führt (dieses Papier enthält auch einen GSM-Plus-Datensatz mit 2.400 A-Testteilmengen). Durch das Testen von LLMs unter Verwendung jedes Problems und seiner acht Varianten kann GSM-Plus Forschern dabei helfen, die Robustheit von LLMs bei der Lösung mathematischer Probleme umfassend zu bewerten.个 Abbildung 2: Basierend auf einem mathematischen Seed-Problem, verwenden Sie 8 Winkel von 8 Störungen zur Generierung von Problemvarianten unterschiedlicher Maßstäbe, unterschiedlicher Vortrainingsmethoden, unterschiedlicher Aufgabenfeinabstimmung und einer Kombination von 4 häufig verwendeten Aufforderungstechnologien. In diesem Artikel wird festgestellt, dass LLMs das GSM8K-Problem als Ganzes genau lösen können. Bei der Beantwortung von Variantenfragen in GSM-Plus treten jedoch offensichtliche Probleme auf. Die wichtigsten Erkenntnisse lauten wie folgt:

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

^{Aufgabenspezifische Optimierung, d Aufgabengenauigkeit; während der Grad der Robustheit mehr vom zugrunde liegenden Modell und der Feinabstimmung der Auswahl der Datensätze abhängt}

Die Leistung von LLMs lässt schnell nach, wenn „kritisches Denken“, „arithmetische Änderungen“ und „Distraktoreinfügung“ erforderlich sind " sind beteiligt; aber für "numerische Änderungen" und "Problemverständnis" ist die Leistung von Störungen, LLMs relativ stabil.

Frühere Eingabeaufforderungstechniken (z. B. CoT, PoT, LtM und komplexitätsbasiertes CoT) haben keine signifikante Wirkung zur Robustheitsverbesserung, insbesondere für „arithmetische Änderungen“ und „kritisches Denken“. Basierend auf früheren Arbeiten untersucht dieser Artikel weiter eine kombinierte Eingabeaufforderungsmethode, die gleichzeitig die Leistung von LLMs auf GSM8K und GSM-Plus verbessern kann, indem jede Argumentation iterativ generiert und überprüft wird Gedanke.

Qualitätssicherung

: Verwenden Sie zunächst die Fragenumschreibungsfunktionen von GPT-4, um Fragen zu generieren Varianten und generieren Sie dann Kandidatenantworten. Um die Datenqualität sicherzustellen, werden alle von GPT-4 generierten Fragenvarianten und Antworten gründlich vom Team für manuelle Annotationen überprüft umgeschriebene Probleme.
Feinkörnige Auswertung

: Für jede Testfrage im Mainstream-Auswertungsdatensatz GSM8K stellt GSM-Plus 8 Variantenfragen in Störungsrichtungen bereit und testet damit vollständig die Fähigkeit großer Modelle, mathematische Anwendungsprobleme in verschiedenen Kontexten flexibel zu lösen.

Anspruchsvoll
: Im Vergleich zu GSM8K ist die Problemvariante von GSM-Plus anspruchsvoller und die Leistung aller an der Bewertung teilnehmenden LLMs sinkt deutlich. In der folgenden Analyse wird dieser Artikel speziell die Problemlösungsrobustheit von LLMs unter verschiedenen Arten von Störungen analysieren.

^{Tabelle 1: Verschiedene Farben repräsentieren unterschiedliche Störungstypen:}^{numerische Substitution, Ziffernerweiterung, Ganzzahl-Dezimal-Bruch-Umwandlung, Operationserweiterung, Betriebsumkehr, Problemverständnis, Einfügung von Distraktoren,}^{Kritisches Denken.}

Wie aus der obigen Tabelle ersichtlich ist, verwendeten frühere Studien unterschiedliche Störungen, um die Robustheit des mathematischen Denkens zu testen, aber die Bewertungseinstellungen decken nur einige Störungstypen ab und die meisten von ihnen führen Störungen durch automatische Methodenkonstruktion ein. Qualität. Schwer zu garantieren. Im Gegensatz dazu nutzt GSM-Plus acht verschiedene mathematische Denkfähigkeiten, um ein einzelnes Problem zu lösen, mit umfassenderer Abdeckung und strenger Qualitätskontrolle.

Experimentelle Analyse

Bewertungsmetriken
- Performance Reduction Rate (PDR): Leistung von LLMs auf der Bettproblem im Vergleich zum ursprünglichen Problem-Sturzgrad.
- Prozentsatz gleichzeitig gelöster Problempaare (ASP): Der Anteil des ursprünglichen Problems und seiner entsprechenden Problemvariante, die beide von LLMs richtig beantwortet werden.
Gesamtleistung

Wie in der Tabelle unten gezeigt, sinkt die Leistung der meisten LLMs auf GSM-Plus im Vergleich zu GSM8K deutlich.

GPT-4 zeigt die höchste Robustheit, mit dem kleinsten PDR von nur 8,23 %. CodeLlama weist den größten PDR auf, wobei die Modelle 7B, 13B und 34B 40,56 %, 39,71 % bzw. 34,27 % betragen und damit sein Basismodell LLaMA-2-7B (39,49 %) übertreffen, sowie das mathematische SFT-Modell fein abgestimmt darauf, wie SEGO-7B (34,91 %). Dies zeigt, dass das Denken, bei dem nur prozedurale Sprachen verwendet werden, anfällig für Störungen ist.

Angesichts mathematischer Störungen ist die Leistung umso stabiler, je größer die Modellgröße ist. Obwohl die überwachte Feinabstimmung die Genauigkeit bei nachgelagerten Aufgaben verbessern kann, erhöht sie die Robustheit des Modells gegenüber Störungen (d. h. niedrigere PDR) nicht wesentlich. Für die Robustheit sind Daten wichtig, die die Feinabstimmung überwachen. Es ist außerdem auf Basis von LLaMA-2 fein abgestimmt und verwendet unterschiedliche Daten, was zu großen Unterschieden in der Genauigkeit und Robustheit des Modells führen wird. Tabelle 2: Gesamtleistung von LLMs unter Störung

In diesem Artikel werden LLMs in 8 Arten der Leistungsstabilität unter Problemvarianten weiter bewertet. Im Vergleich zur menschlichen Grundlinie für kritisches Denken (lila), Operationserweiterung und Operationsumkehr (blau), Distraktoreneinfügung (rosa) und Ganzzahl-Dezimal-Bruch-Umwandlung (orange) nimmt die Leistung von LLMs deutlich ab. Bei „numerischer Ersetzung“ und „Problemverständnis“ ist die Leistung von LLMs stabil oder sogar leicht verbessert.
Die vorherige Analyse basiert hauptsächlich auf dem gesamten Datensatz. Als nächstes teilt dieser Artikel die beiden Datensätze danach auf, ob die mathematischen Fragen richtig beantwortet wurden, und analysiert, ob, wenn LLMs das GSM8K-Problem erfolgreich lösen, die Wahrscheinlichkeit einer korrekten Beantwortung der GSM-Plus-Variantenfrage höher wird (d. h. a hoher ASP-Wert). Wenn diese Behauptung zutrifft, kann davon ausgegangen werden, dass LLMs bei dieser spezifischen Teilmenge mathematischer Probleme eine stabile Leistung erbringen, auch wenn dies nicht bei der gesamten Datenmenge der Fall ist. Im Versuchsaufbau wird jedes GSM8K-Problem und seine Variante in GSM-Plus in 8 Problempaare umgewandelt, und die Ergebnisse sind in Abbildung 4 dargestellt.

Abbildung 4: Inferenzübertragbarkeit von LLMs zwischen GSM8K- und GSM-Plus-Problempaaren. Lila (beide richtig) und blaue (beide falsch) Balken zeigen ein konsistentes Modellverhalten an, während rote (GSM8K richtig und GSM-Plus falsch) und gelbe (GSM8K falsch und GSM-Plus richtig) Balken ein inkonsistentes Modellverhalten anzeigen. Die Summe der Höhen der violetten und roten Balken stellt die Anzahl der LLMs dar, die das GSM8K-Problem korrekt gelöst haben.

Das Vorhandensein roter Balken (LLMs, die die ursprüngliche Frage richtig beantworten, sich aber nicht mit der Variante befassen) weist darauf hin, dass die Leistung der meisten Modelle nur begrenzt übertragbar ist. Obwohl sich die Leistung von LLMs beim GSM8K-Problem unterscheidet (Höhe der violetten und roten Balken), ist die Leistungsübertragbarkeit ähnlich (Höhe der roten Balken). Dies bedeutet, dass bestehende Benchmarks die wahren Fähigkeiten eines Modells im mathematischen Denken nicht genau beurteilen können. Eine hohe Genauigkeit ist nicht gleichbedeutend mit einer starken Inferenzrobustheit.

Hinweise helfen bei der Leistungsrobustheit von LLMs

Frühere Arbeiten haben gezeigt, dass gute Hinweisanweisungen wichtig sind, um die mathematischen Fähigkeiten von Sprachmodellen zu stimulieren. In diesem Artikel werden vier repräsentative Modelle ausgewählt und ihre Leistung bei der Lösung von Problemen unter verschiedenen Eingabeaufforderungsanweisungen getestet. Wie in der Abbildung unten gezeigt, funktionieren LLMs bei Störungen am stabilsten, wenn sie komplexe Beispiele als kontextbezogene Demonstrationen verwenden (Komplexitätsbasiertes CoT), im Gegensatz dazu verwenden LLMs nur die Programmsprache zur Darstellung von Zwischenbegründungen (Program-of-Thought). sind anfälliger für Störungen. Insgesamt reichen diese Tipps und Tricks nicht aus, damit LLMs die gleiche Leistung wie GSM8K auf GSM-Plus beibehalten können. L Abbildung 5: Die Auswirkung der Eingabeaufforderung auf die Robustheit der LLMS-Leistung

Ist die Kombinationseingabeaufforderung gültig?

Wie kann die Robustheit von LLMs basierend auf vorhandenen Hinweismethoden verbessert werden? In diesem Artikel wurde festgestellt, dass LLMs während des Problemlösungsprozesses häufig wichtige Bedingungen ignorieren oder Berechnungsfehler machen. Zu diesem Zweck untersucht dieser Artikel Comp, eine kombinierte Aufforderungsmethode. Die Methode veranlasst LLMs zunächst dazu, numerisch relevante notwendige Bedingungen im Problem zu extrahieren (Prompt1). Als nächstes werden LLMs angewiesen, basierend auf dem Problem und den kritischen Bedingungen iterativ Inferenzziele (Prompt2) und Berechnungsziele (Prompt3) zu generieren und Feedback zu den generierten historischen Problemlösungsschritten geben zu lassen, um zu bestimmen, ob die endgültige Antwort erhalten wird ( Eingabeaufforderung4). Die spezifische Implementierung ist in Abbildung 6 dargestellt.

auf Standard-Testsätzen und gegnerischen Testsätzen kann dies nicht der Fall sein überbrückt. Diese Forschung freut sich auf weitere Methoden in der Zukunft, um die Robustheit des Modells weiter zu verbessern und die weitere Entwicklung von LLMs im Bereich des mathematischen Denkens zu fördern.

Table 3: Performance of Comp iteration prompts Plus on rewriting questions, under different prompting techniques Performance of GPT-3.5-Turbo. While all prompts motivated Turbo to accurately answer the GSM8K questions, only Comp was able to help Turbo generate correct answers on the GSM-Plus variant questions.

This article introduces an adversarial primary school mathematics application question evaluation set GSM -Plus, designed to systematically analyze the robustness of LLMs in solving mathematical application problems. Experimental analysis finds that the performance of most LLMs drops significantly compared to their performance on standard benchmarks when faced with perturbations, falling far short of human performance levels. The researchers hope that the work of this article can promote more future research, including but not limited to: (1) systematic evaluation of the mathematical skills of LLMs; (2) building models that can flexibly perform mathematical reasoning.

Reference link

^{[1] Cobbe, Karl, et al. "Training verifiers to solve math word problems." arXiv preprint arXiv:2110.14168 (2021). https://paperswithcode. com/sota/arithmetic-reasoning-on-gsm8k}

[2] George Polya. 2004. How to solve it: A new aspect of mathematical method, volume 85. Princeton university press.

Das obige ist der detaillierte Inhalt vonACL 2024 |. Bei der mathematischen Bewertung von 25 Open- und Closed-Source-Modellen hat GPT-3.5-Turbo knapp bestanden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

运算符 for 子类 math github 人工智能 https gpt llama word

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Das erste Video-of-Thought-Argumentation-Framework ist da: Umfassendes Video-Argumentation von der Wahrnehmung bis zur Erkenntnis wie ein MenschNächster Artikel：Das erste Video-of-Thought-Argumentation-Framework ist da: Umfassendes Video-Argumentation von der Wahrnehmung bis zur Erkenntnis wie ein Mensch

In Verbindung stehende Artikel

Mehr sehen