Umgekehrtes Denken: Das neue mathematische Argumentationssprachenmodell von MetaMath trainiert große Modelle-KI-php.cn

Heim

Technologie-Peripheriegeräte

Umgekehrtes Denken: Das neue mathematische Argumentationssprachenmodell von MetaMath trainiert große Modelle

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 11, 2023 pm 04:13 PM

ai模型

Komplexes mathematisches Denken ist ein wichtiger Indikator für die Bewertung der Argumentationsfähigkeiten großer Sprachmodelle. Derzeit weisen die häufig verwendeten Datensätze zum mathematischen Denken eine begrenzte Stichprobengröße und eine unzureichende Problemvielfalt auf, was im Großen und Ganzen zum Phänomen der „Umkehrung des Fluchs“ führt Sprachmodelle, also ein Modell, das auf „A“ trainiert wurde. Das Sprachmodell „ist B“ kann nicht auf „B ist A“ verallgemeinert werden [1]. Die spezifische Form dieses Phänomens bei mathematischen Denkaufgaben ist: Bei einem gegebenen mathematischen Problem ist das Sprachmodell gut darin, das Problem durch Vorwärtsschlussfolgerung zu lösen, es fehlt ihm jedoch die Fähigkeit, das Problem durch Rückwärtsschlussfolgerung zu lösen. Umgekehrtes Denken kommt bei mathematischen Problemen sehr häufig vor, wie die folgenden beiden Beispiele zeigen.

1. Klassische Frage – Huhn und Kaninchen im selben Käfig

Vorwärtsbegründung: Es gibt 23 Hühner und 12 Kaninchen im Käfig.
Umgekehrte Argumentation: Es gibt mehrere Hühner und Kaninchen im selben Käfig. Von oben gezählt sind es 35 Köpfe und von unten gezählt sind es 94 Beine. Wie viele Hühner und Kaninchen sind im Käfig?

2. GSM8K-Problem

Vorwärtsbegründung: James kauft 5 Packungen Rindfleisch zu je 4 Pfund. Wie viel hat er bezahlt? : James kauft x Packungen Rindfleisch zu je 4 Pfund. Wie viel hat er bezahlt? Wenn wir wissen, dass die Antwort auf die obige Frage 110 ist, welchen Wert hat die unbekannte Variable x?
Um die Vorwärts- und Rückwärtsschlussfähigkeiten des Modells zu verbessern, haben Forscher aus Cambridge, der Hong Kong University of Science and Technology und Huawei den MetaMathQA-Datensatz vorgeschlagen, der auf zwei häufig verwendeten mathematischen Datensätzen (GSM8K und MATH) basiert. : einer mit umfassender Abdeckung und einem hochwertigen Datensatz zum mathematischen Denken. MetaMathQA besteht aus 395.000 vorwärts-inversen mathematischen Frage-Antwort-Paaren, die von einem großen Sprachmodell generiert werden. Sie optimierten LLaMA-2 am MetaMathQA-Datensatz, um MetaMath zu erhalten, ein großes Sprachmodell mit Schwerpunkt auf mathematischem Denken (vorwärts und invers), das SOTA im Datensatz zum mathematischen Denken erreichte. Der MetaMathQA-Datensatz und die MetaMath-Modelle in verschiedenen Maßstäben stehen Forschern als Open Source zur Verfügung.

Projektadresse: https://meta-math.github.io/ Umgekehrtes Denken: Das neue mathematische Argumentationssprachenmodell von MetaMath trainiert große Modelle

Papieradresse: https://arxiv.org/abs/2309.12284
Datenadresse: https: //huggingface.co/datasets/meta-math/MetaMathQA
Modelladresse: https://huggingface.co/meta-math
Codeadresse: https://github.com/meta-math/ MetaMath
Im GSM8K-Backward-Datensatz haben wir ein Reverse-Inference-Experiment erstellt. Experimentelle Ergebnisse zeigen, dass die aktuelle Methode im Vergleich zu Methoden wie SFT, RFT und WizardMath bei inversen Inferenzproblemen eine schlechte Leistung erbringt. Im Gegensatz dazu erzielt das MetaMath-Modell sowohl bei der Vorwärts- als auch bei der Rückwärtsinferenz eine hervorragende Leistung 1. Antworterweiterung:

Bei einer Frage wird durch ein großes Sprachmodell als Datenerweiterung eine Denkkette generiert, die das richtige Ergebnis erzielen kann.

Umgekehrtes Denken: Das neue mathematische Argumentationssprachenmodell von MetaMath trainiert große Modelle Frage: James kauft 5 Packungen Rindfleisch zu je 4 Pfund. Der Preis für Rindfleisch beträgt 5,50 $ pro Pfund.

Antwort: James kauft 5 Packungen Rindfleisch zu je 4 Pfund jeder kauft also insgesamt 5 * 4 = 20 Pfund Rindfleisch, also zahlt er 20 * 5,50 $ = 110.

Umgekehrtes Denken: Das neue mathematische Argumentationssprachenmodell von MetaMath trainiert große Modelle

2 Frage (Verbesserung des Umschreibens von Fragen):

Schreiben Sie bei einer gegebenen Metafrage die Frage mithilfe eines großen Sprachmodells um und generieren Sie eine Denkkette, die als Datenerweiterung das richtige Ergebnis liefert.

Frage: Wie hoch war der Gesamtbetrag, den James bezahlt hat, als er 5 Packungen Rindfleisch mit einem Gewicht von je 4 Pfund zu einem Preis von 5,50 $ pro Pfund kaufte?
Antwort: Jede Packung Rindfleisch wiegt 4 Pfund, also 5 Packungen wiegen insgesamt 4 * 5 = 20 Pfund. Der Preis für 20 Pfund beträgt also 20 * 5,50 $ = 110 $

3. FOBAR-Frage (FOBAR Inverse Question Enhancement): Bei einer Metafrage ist die Zahl in der Maskenbedingung x, bei gegebener Originalantwort und invertiertem x, um eine inverse Frage zu generieren, und basierend auf Dieses inverse Problem generiert die richtige Gedankenkette zur Durchführung einer Datenerweiterung (Beispiel für eine Inversion: „Wenn wir wissen, dass die Antwort auf die obige Frage 110 ist, welchen Wert hat dann die unbekannte Variable x?“).

Frage: James kauft x Packungen Rindfleisch zu je 4 Pfund. Der Preis für Rindfleisch beträgt 5,50 $ pro Pfund. Wie viel hat er bezahlt? von unbekannter Variable x?
Antwort: James kauft x Packungen Rindfleisch zu je 4 Pfund, also kauft er insgesamt 4x Pfund Rindfleisch. Der Preis für Rindfleisch beträgt 5,50 $ pro Pfund, also die Gesamtkosten für das Rindfleisch ist 5,50 * 4x = 22x. Wir gehen davon aus, dass die Gesamtkosten 110 $ betragen, also können wir schreiben: 22x = 110. Wenn wir beide Seiten durch 22 dividieren, erhalten wir: x = 5. Der Wert von x ist 5,

4. Frage zur Selbstverifizierung (Verbesserung der inversen Frage zur Selbstverifizierung): Basierend auf FOBAR wird der Teil der inversen Frage durch ein großes Sprachmodell als Aussage umgeschrieben, um eine Datenerweiterung durchzuführen (umgeschriebenes Beispiel: „Wie viel hat…“ zahlt er?“ (mit der Antwort 110) wurde umgeschrieben in „Er zahlte 110“).

Frage: James kauft x Packungen Rindfleisch zu je 4 Pfund. Der Preis für Rindfleisch beträgt 5,50 $ pro Pfund. Wie hoch ist der Wert der unbekannten Variablen x?
Antwort: Um dies zu lösen Problem: Wir müssen den Wert von x bestimmen, der die Anzahl der Packungen Rindfleisch darstellt, die James gekauft hat, und 5,50 US-Dollar pro Pfund kostet. Wir können die Gleichung aufstellen wie folgt: Anzahl der Rindfleischpakete * Gewicht pro Pfund * Preis pro Pfund = Gesamtbetrag x * 4 * 5,50 $ = 110 $; Um x zu isolieren, wir dividieren beide Seiten der Gleichung durch 22: 22x / 22 = $110 / 22; Die Leistung verbessert die Leistung von LLM-Quellmodellen und erfordert keine Verwendung externer Tools (z. B. Code-Interpreter). Unter ihnen erreicht unser MetaMath-7B-Modell eine Genauigkeit von 66,5 % bei GSM8K und 19,8 % bei MATH, was 11,6 % bzw. 9,1 % höher ist als die hochmodernen Modelle derselben Skala. Besonders erwähnenswert ist, dass MetaMath-70B auf GSM8K eine Genauigkeit von 82,3 % erreichte und damit GPT-3,5-Turbo übertraf. Während Daten aus nachgelagerten Aufgaben die inhärenten Fähigkeiten des während des Vortrainings erlernten Sprachmodells aktivieren. Daher wirft dies zwei wichtige Fragen auf: (i) Welche Art von Daten aktiviert latentes Wissen am effektivsten und (ii) warum ist ein Datensatz bei dieser Aktivierung besser als ein anderer?

Warum ist MetaMathQA nützlich? Die Qualität (Perplexity) der Denkkettendaten wurde verbessert

Umgekehrtes Denken: Das neue mathematische Argumentationssprachenmodell von MetaMath trainiert große Modelle

Wie in der Abbildung oben gezeigt, berechneten die Forscher das LLaMA-2-7B-Modell in jedem Teil der Nur-Antwort-Daten, GSM8K CoT und MetaMathQA-Datensätze legen den Grad der Verwirrung fest. Die Verwirrung des MetaMathQA-Datensatzes ist deutlich geringer als bei den anderen beiden Datensätzen, was darauf hindeutet, dass er eine höhere Lernfähigkeit aufweist und möglicherweise hilfreicher bei der Offenlegung des latenten Wissens des Modells ist

Warum ist MetaMathQA nützlich? Die Vielfalt der Denkkettendaten wurde erhöht

Umgekehrtes Denken: Das neue mathematische Argumentationssprachenmodell von MetaMath trainiert große Modelle

Durch den Vergleich des Diversitätsgewinns der Daten und des Genauigkeitsgewinns des Modells stellten die Forscher fest, dass die Einführung der gleichen Menge erweiterter Daten durch Neuformulierung, FOBAR und SV alle zu offensichtlichen Diversitätsgewinnen und einem deutlich verbesserten Modell führte Genauigkeit. Im Gegensatz dazu führte die alleinige Verwendung der Antworterweiterung zu einer erheblichen Sättigung der Genauigkeit. Sobald die Genauigkeit die Sättigung erreicht, führt das Hinzufügen von AnsAug-Daten nur zu einer begrenzten Leistungsverbesserung

Das obige ist der detaillierte Inhalt vonUmgekehrtes Denken: Das neue mathematische Argumentationssprachenmodell von MetaMath trainiert große Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

So erstellen Sie Ihren persönlichen KI -Assistenten mit Smollm mit Umarmung. SmollmApr 18, 2025 am 11:52 AM

Nutzen Sie die Kraft von AI On-Device: Bauen eines persönlichen Chatbot-Cli In der jüngeren Vergangenheit schien das Konzept eines persönlichen KI -Assistenten wie Science -Fiction zu sein. Stellen Sie sich Alex vor, ein Technik -Enthusiast, der von einem klugen, lokalen KI -Begleiter träumt - einer, der nicht angewiesen ist

KI für psychische Gesundheit wird aufmerksam durch aufregende neue Initiative an der Stanford University analysiertApr 18, 2025 am 11:49 AM

Ihre Eröffnungseinführung von AI4MH fand am 15. April 2025 statt, und Luminary Dr. Tom Insel, M. D., berühmter Psychiater und Neurowissenschaftler, diente als Kick-off-Sprecher. Dr. Insel ist bekannt für seine herausragende Arbeit in der psychischen Gesundheitsforschung und für Techno

Die 2025 WNBA -Entwurfsklasse tritt in eine Liga ein, die wächst und gegen Online -Belästigung kämpftApr 18, 2025 am 11:44 AM

"Wir möchten sicherstellen, dass die WNBA ein Raum bleibt, in dem sich alle, Spieler, Fans und Unternehmenspartner sicher fühlen, geschätzt und gestärkt sind", erklärte Engelbert und befasste sich mit dem, was zu einer der schädlichsten Herausforderungen des Frauensports geworden ist. Die Anno

Umfassende Anleitung zu Python -integrierten Datenstrukturen - Analytics VidhyaApr 18, 2025 am 11:43 AM

Einführung Python zeichnet sich als Programmiersprache aus, insbesondere in der Datenwissenschaft und der generativen KI. Eine effiziente Datenmanipulation (Speicherung, Verwaltung und Zugriff) ist bei der Behandlung großer Datensätze von entscheidender Bedeutung. Wir haben zuvor Zahlen und ST abgedeckt

Erste Eindrücke von OpenAIs neuen Modellen im Vergleich zu AlternativenApr 18, 2025 am 11:41 AM

Vor dem Eintauchen ist eine wichtige Einschränkung: KI-Leistung ist nicht deterministisch und sehr nutzungsgewohnt. In einfacherer Weise kann Ihre Kilometerleistung variieren. Nehmen Sie diesen (oder einen anderen) Artikel nicht als endgültiges Wort - testen Sie diese Modelle in Ihrem eigenen Szenario

AI -Portfolio | Wie baue ich ein Portfolio für eine KI -Karriere?Apr 18, 2025 am 11:40 AM

Erstellen eines herausragenden KI/ML -Portfolios: Ein Leitfaden für Anfänger und Profis Das Erstellen eines überzeugenden Portfolios ist entscheidend für die Sicherung von Rollen in der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML). Dieser Leitfaden bietet Rat zum Erstellen eines Portfolios

Welche Agenten KI könnte für Sicherheitsvorgänge bedeutenApr 18, 2025 am 11:36 AM

Das Ergebnis? Burnout, Ineffizienz und eine Erweiterung zwischen Erkennung und Wirkung. Nichts davon sollte für jeden, der in Cybersicherheit arbeitet, einen Schock erfolgen. Das Versprechen der Agenten -KI hat sich jedoch als potenzieller Wendepunkt herausgestellt. Diese neue Klasse

Google versus openai: Der KI -Kampf für SchülerApr 18, 2025 am 11:31 AM

Sofortige Auswirkungen gegen langfristige Partnerschaft? Vor zwei Wochen hat Openai ein leistungsstarkes kurzfristiges Angebot vorangetrieben und bis Ende Mai 2025 den kostenlosen Zugang zu Chatgpt und Ende Mai 2025 gewährt. Dieses Tool enthält GPT-4O, A A A.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vorByDDD

Will R.E.P.O. Crossplay haben?

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7555

CakePHP-Tutorial

1383

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten