Heim >Technologie-Peripheriegeräte >KI >Erste Schritte mit Qwen2.5-Math
In den letzten Jahren wurden erhebliche Fortschritte bei der Erforschung und Verbesserung der Argumentationsfähigkeiten großer Sprachmodelle erzielt, wobei der Schwerpunkt auf der Verbesserung ihrer Kenntnisse in der Lösung liegt
arithmetische und mathematische Probleme.
Ein Modell mit gutem arithmetischen und mathematischen Denken kann helfen:
In diesem Artikel wird untersucht, wie Fortschritte im mathematischen Denken Innovationen in KI-Modellen wie QWEN2.5-MATH und ihre Anwendungen in personalisiertem Lernen, Problemlösung und Lehrplandesign vorantreiben.
Die QWEN2.5-MATH-Serie ist die neueste Ergänzung der QWEN-Serie von Alibaba Cloud von Open-Source-Modellen mit Mathematik-spezifisch. Es folgt die frühere Veröffentlichung von Qwen2-Math, einer Reihe spezialisierter mathematischer Sprachmodelle, die auf den QWEN2 LLMs basieren. Diese Modelle zeigen überlegene mathematische Fähigkeiten und übertreffen sowohl Open-Source-Alternativen als auch einige geschlossene Modelle wie GPT-4O.
Diese Serie zeigt signifikante Leistungsverbesserungen gegenüber der QWEN2-MATH-Serie über chinesische und englische Mathematik-Benchmarks. Während diese Serie die Kette des Gedankens (COT) anwendet, um nur englischspezifische mathematische Probleme zu lösen, erweitert die QWEN2.5-MATH-Serie ihre Fähigkeiten, indem sowohl COT- als auch Werkzeug-integrierte Argumentation (TIR) einbezogen werden, um mathematische Probleme in Chinesisch und Englisch effektiv anzugehen.
Der Vergleich zwischen QWEN2.5-MATH und QWEN2-MATH unterstreicht die Fortschritte in der mathematischen Argumentation und den Problemlösungsfunktionen, die bei der neuesten Iteration der math-spezifischen Sprachmodelle von Alibaba Cloud erzielt wurden.
Eigentum | Qwen2-math | Qwen2.5-math |
---|---|---|
Datengröße vor dem Training | 700B -Token (von Qwen Math Corpus V1) | Über 1T -Token (von Qwen Math Corpus V2) |
Sprachen unterstützt | Englisch | Englisch und Chinesisch |
Ansatz | Gedächtniskette (COT) | Kette der Gedanken (COT), Werkzeug integriertes Denken (TIR) |
Benchmark-Score (GSM8K, Math und MMLU-Stem) | 89.1, 60,5, 79,1 | 90,8, 66,8, 82,8 |
Modellvarianten | Qwen2-Math-1.5b/7b/72b | Qwen2.5-math-1.5b/7b/72b |
Die QWEN2.5-MATH-Serie wird unter Verwendung des Qwen Math Corpus V2 geschult, der über 1 Billion hochwertige mathematische Daten-Token sowohl in Englisch als auch in Chinesisch besteht. Dieser Datensatz enthält synthetische mathematische Daten, die unter Verwendung des QWEN2-Math-72B-Instruct-Modells und aggregierter mathematischer chinesischer Daten aus Webinhalten, Büchern und Code-Repositories über mehrere Rückrufzyklen generiert wurden.
Der Datensatz (COT) der Kette für QWEN2.5-MATH ist eine umfassende Sammlung mathematischer Probleme, die darauf abzielen, die Argumentationsfunktionen des Modells zu verbessern. Es enthält:
Um die rechnerischen und algorithmischen Herausforderungen zu bewältigen, denen sich die COT-Aufforderung stellt-wie die Lösung quadratischer Gleichungen oder Berechnung von Eigenwerten-wurde der Datensatz mit Tool-Integrated Argumenting (TIR) eingeführt. Dieser Datensatz verbessert die Kenntnisse des Modells in der symbolischen Manipulation und den genauen Berechnungen, indem es ihm ermöglicht, einen Python -Dolmetscher für Argumentationsaufgaben zu verwenden. Es enthält:
Da das QWEN2.5-MATH-Modell die verbesserte Version des QWEN2-MATH-Modells ist, wird sein Training so wie folgt von Qwen2-Math abgeleitet:
Die Verbesserung der Modellleistung ist der Schlüssel für die Bereitstellung schneller und genauerer Ergebnisse, um die Effizienz und Zuverlässigkeit bei Anwendungen zu gewährleisten.
Die Basismodelle Qwen2.5-Math-1,5b/7b/72b erzielten signifikante Verbesserungen der englischen Mathematik-Benchmarks (GSM8K, Math und MMLU-Stem) und chinesischen Mathematik-Benchmarks (CMath, Gaokao Math Cloze und Gaokao Math QA) im Vergleich zu Qwen2-math-1.5b/7b/7b/7b/7b/7b/72b.
Beispielsweise zeigen QWEN2.5-MATH-1,5B/7B/72B-Modelle eine signifikante Verbesserung von 5,4, 5,0, 6,3 in der Mathematik und eine Verbesserung von 3,4, 12,2, 19,8 auf Gaokao Mathematik-QA.
Das QWEN2.5-MATH-72B-Instruct-Modell übertraf sowohl Open-Source-Modelle als auch Top-Modelle mit geschlossenen Source wie GPT-4O und Gemini Math-spezialisiert 1.5 Pro.
Das QWEN2.5-MATH-72B-Instruct-Modell übertrifft seinen Vorgänger (das QWEN2-Math-72B-Instrukturmodell) um durchschnittlich 4,4 Punkte in englischer Sprache und 6,1 Punkte auf Chinesisch. Diese Aufführung markiert seine Position als führendes mathematisches Open-Source-Modell, das heute verfügbar ist.
Auf den äußerst herausfordernden Benchmarks wie Aime 2024 und AMC23 lösen Modelle wie Claude3 Opus, GPT-4 Turbo und Gemini 1.5 Pro nur 1 oder 2 von 30 Problemen. Im Gegensatz dazu zeigt Qwen2.5-Math-72B-Instruktur eine bemerkenswerte Leistung, die 9 Probleme im gierigen Dekodierungs-COT-Modus und 12 Probleme im TIR-Modus löst. Darüber hinaus erreicht Qwen2.5-Math-7b-Instruction mit Unterstützung des Belohnungsmodells (RM) beeindruckende 21 gelöste Probleme und zeigt seine überlegenen Funktionen der mathematischen Problemlösung.
Lassen Sie uns die QWEN2.5-MATH-Demo hier mit dem Umarmungsfeldbereich sehen.
Dieser Speicherplatz bietet eine webbasierte Benutzeroberfläche, um mathematische oder arithmetische Probleme im Bild- oder Textformat einzugeben, um die Funktionen des Modells zu testen.
Um Multimodalitäten zu unterstützen, verwendet dieser Raum Qwen2-VL für OCR und QWEN2.5-MATH für mathematisches Denken.
QWEN-VL (QWEN Large Vision Language Model) ist das multimodale Sehsprachenmodell, das Bilder, Text als Eingaben, unterstützt. Es unterstützt natürlich Englisch und Chinesisch, verschiedene Aufgaben zur Erzeugung von Image-zu-Text-Erzeugung wie Bildunterschriften, visuelle Fragen zu beantworten, visuelles Denken, Texterkennung usw.
QWEN-VL-Serie enthält viele Modelle wie Qwen-VL, Qwen-VL-Chat, Qwen-VL-Plus, Qwen-VL-Max
usw. Qwen-VL-Max ist Qwens fähigstes großes visuelles Sprachmodell, um eine optimale Leistung bei einem noch breiteren Bereich komplexer Aufgaben zu liefern.
Das System verwendet das QWEN-VL-MAX-0809-Modell, um Textinformationen aus den Eingabebildern zu verstehen, zu verarbeiten und zu extrahieren. Die Funktion process_image () empfängt zunächst das Eingabebild und extrahiert den mathematischen Inhalt, um eine genaue Transkription von Latexformeln zu gewährleisten. Das System wendet dann die folgende Standardaufforderung an, um den mathematischen Inhalt aus dem Bild zu extrahieren.
Die Eingabeaufforderung anweist: „Beschreiben Sie den mathematischen Inhalt in diesem Bild und gewährleisten eine genaue Transkription von Latexformeln. Beschreiben Sie nicht mathematische Details. “
OS importieren OS.System ('PIP -Installation von DashScope -u') tempfile importieren vom Pathlib -Importpfad Geheimnisse importieren DashScope importieren Aus demhscope Import multimodalconversation, Generation vom PIL -Importbild Your_api_token = os.getenv ('your_api_token') DashScope.api_key = your_api_token math_messages = [] Def process_image (Bild, sollte convert = false): global math_messages math_messages = [] # Zurücksetzen beim Hochladen im Bild Uploaded_file_dir = os.environ.get ("Gradio_Temp_dir") oder Str (" Pfad (tempfile.getTempDir ()) / "Gradio" ) os.makedirs (uploaded_file_dir, exist_ok = true) name = f "tmp {secrets.token_hex (20)}. JPG" Dateiname = os.path.join (Uploadd_file_dir, Name) wenn sollte es konvertieren: new_img = image.new ('rgb', size = (image.width, image.height), color = (255, 255, 255)) new_img.paste (Bild, (0, 0), mask = Bild) Image = new_img Bild.Save (Dateiname) messus = [{ 'Rolle': 'System', 'Inhalt': [{'text': 'du bist ein hilfreicher Assistent.'}] }, { "Rolle": "Benutzer", 'Inhalt': [ {'Bild': f'file: // {Dateiname} '}, {'text': 'Bitte beschreiben Sie den mathematischen Inhalt in diesem Bild und stellen Sie sicher, dass alle Latexformeln korrekt transkribiert werden. Nicht mathematische Details müssen nicht beschrieben werden. '} ] }] response = multimodalconversation.call (model = 'qwen-vl-max-0809', Messages = Nachrichten) os.remove (Dateiname) return response.output.choices [0] ["Nachricht"] ["Inhalt"]#CSV importieren
Dieser Schritt extrahiert die Bildbeschreibung, die dann zusammen mit der Benutzerfrage an das QWEN2.5 -Modell übergeben wird, um die Antwort zu generieren. Das QWEN2.5-Math-72B-Instruct-Modell führt in diesem Prozess die mathematische Argumentation durch.
Def get_math_response (Image_Description, user_question): global math_messages Wenn nicht math_messages: math_messages.append ({'rolle': 'system', 'content': 'du bist ein hilfreicher mathematischer Assistenten.'}) math_messages = math_messages [: 1] Wenn Image_Description nicht ist: content = f'image Beschreibung: {image_description} \ n \ n ' anders: content = '' query = f "{content} Benutzerfrage: {user_question}" Math_Messages.Append ({'Rolle': 'Benutzer', 'Inhalt': Abfrage}) Antwort = Generation.Call ( model = "Qwen2.5-math-72b-instruct", messages = math_messages, result_format = 'message', stream = true ) Antwort = keine für resp als Antwort: Wenn resp.output keine ist: weitermachen Antwort = resp.output.choices [0] .Message.Content Relief Antwort.Replace ("\\", "\\\\") print (f'Query: {query} \ nanswer: {Antwort} ') Wenn die Antwort keine ist: math_messages.pop () anders: math_messages.append ({'Rolle': 'Assistant', 'Inhalt': Antwort})
Nachdem wir über die in diesem Raum verwendeten Modelle bekannt sind, sehen wir einige Beispiele dazu
Bewerten Sie die Modellfähigkeit, mathematische oder arithmetische Probleme zu lösen.
Ein Eingabebild, das die folgende Problemanweisung enthält -
Das Modell findet die Werte von x als 5 und y als 2. es liefert auch Schritt für Schritt
Natürliche Sprachbedenken beim Finden der Werte von x und y.
Ein Eingabebild, das die folgende Problemanweisung enthält -
Das Modell findet den Wert des letzten Ausdrucks als 50 heraus.
Ein Eingabebild, das die folgende Problemanweisung enthält -
Das Modell findet den Wert des obigen Ausdrucks als 5 heraus.
In diesem Artikel haben wir QWEN2.5-MATH untersucht-eine Reihe mathematischer Modelle mit robusten Argumentationsfunktionen. Wir untersuchten seine Komponenten, Schulungsdaten, Architektur und Leistung auf verschiedenen Standardbenchmarks. Darüber hinaus haben wir die Demo überprüft und sie mit einer Reihe von moderaten bis komplexen Beispielen getestet.
A. Qwen2.5-Math ist eine verbesserte Version von QWEN2-MATH, die eine verbesserte Leistung, eine bessere Genauigkeit bei der Lösung komplexer mathematischer Probleme und verbesserte Trainingstechniken bietet.
Q2. Welches Modell ist besser für komplexe mathematische Aufgaben, Qwen2.5-Math oder Qwen2-Math?A. Qwen2.5-math übertrifft die QWEN2-MATH bei komplexen Aufgaben aufgrund seines fortschrittlichen Trainings und der verfeinerten Funktionen im mathematischen Denken typischerweise.
Q3. Wie gehen Qwen2.5-Math und Qwen2-Math mit mathematischer Begründung um?A. Beide Modelle sind für mathematisches Denken ausgelegt, aber QWEN2.5 verwendet ausgefeiltere Algorithmen und Trainingsdaten, um herausfordernde Probleme effektiver zu lösen.
Q4. Welche Bedeutung hat die Trainingsdaten in QWEN2.5-MATH gegenüber QWEN2-MATH?A. Qwen2.5-math profitiert von einem größeren und vielfältigeren Datensatz, was seine Fähigkeit, komplexe mathematische Probleme genauer zu verallgemeinern und zu lösen, verbessert als Qwen2-Math.
Q5. Gibt es Unterschiede in der Verarbeitungsgeschwindigkeit zwischen QWEN2.5-MATH und QWEN2-MATH?A. Qwen2.5 optimiert eine schnellere Verarbeitung und liefert schnellere Antworten im Vergleich zu QWEN2-MATH und gleichzeitig eine hohe Genauigkeit.
Die in diesem Artikel gezeigten Medien sind nicht im Besitz von Analytics Vidhya und werden nach Ermessen des Autors verwendet.
Das obige ist der detaillierte Inhalt vonErste Schritte mit Qwen2.5-Math. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!