Heim >Technologie-Peripheriegeräte >KI >Erste Schritte mit Qwen2.5-Math

Erste Schritte mit Qwen2.5-Math

William Shakespeare
William ShakespeareOriginal
2025-03-13 11:03:10883Durchsuche

In den letzten Jahren wurden erhebliche Fortschritte bei der Erforschung und Verbesserung der Argumentationsfähigkeiten großer Sprachmodelle erzielt, wobei der Schwerpunkt auf der Verbesserung ihrer Kenntnisse in der Lösung liegt
arithmetische und mathematische Probleme.

Ein Modell mit gutem arithmetischen und mathematischen Denken kann helfen:

  • Personalisiertes Lernen: Tutoren von KI-angetriebenen Tutoren können sich an die Bedürfnisse der einzelnen Schüler anpassen und sie verstehen, die komplexe mathematische Konzepte effektiver verstehen.
  • Problemlösung Unterstützung: Die Automatisierung Schritt-für-Schritt-Erklärungen zur Lösung von Problemen verbessert das Engagement und das Verständnis der Schüler.
  • Curriculum Design: Erstellen adaptiver und progressiver Lernmodule in Themen wie Algebra und Kalkül.

In diesem Artikel wird untersucht, wie Fortschritte im mathematischen Denken Innovationen in KI-Modellen wie QWEN2.5-MATH und ihre Anwendungen in personalisiertem Lernen, Problemlösung und Lehrplandesign vorantreiben.

Lernziele

  • Verstehen und erkunden Sie die QWEN2.5-MATH-Serie und ihre Komponenten.
  • Erfahren Sie mehr über Qwen2.5-Math-Modellarchitektur.
  • Erhalten Sie mit Beispielen praktische Belichtung auf QWEN2.5-MATH.
  • Erfahren Sie mehr über die Leistung von QWEN2.5-MATH auf verschiedenen Benchmarks.

Inhaltsverzeichnis

  • Was ist Qwen2.5-Math?
  • Qwen2.5-math gegen Qwen2-Math
  • Trainingsdaten optimieren
  • Effizientes Modelltraining
  • Modellleistung optimieren
  • Laufen Demo
  • Abschluss
  • Häufig gestellte Fragen

Was ist Qwen2.5-Math?

Die QWEN2.5-MATH-Serie ist die neueste Ergänzung der QWEN-Serie von Alibaba Cloud von Open-Source-Modellen mit Mathematik-spezifisch. Es folgt die frühere Veröffentlichung von Qwen2-Math, einer Reihe spezialisierter mathematischer Sprachmodelle, die auf den QWEN2 LLMs basieren. Diese Modelle zeigen überlegene mathematische Fähigkeiten und übertreffen sowohl Open-Source-Alternativen als auch einige geschlossene Modelle wie GPT-4O.

Diese Serie zeigt signifikante Leistungsverbesserungen gegenüber der QWEN2-MATH-Serie über chinesische und englische Mathematik-Benchmarks. Während diese Serie die Kette des Gedankens (COT) anwendet, um nur englischspezifische mathematische Probleme zu lösen, erweitert die QWEN2.5-MATH-Serie ihre Fähigkeiten, indem sowohl COT- als auch Werkzeug-integrierte Argumentation (TIR) ​​einbezogen werden, um mathematische Probleme in Chinesisch und Englisch effektiv anzugehen.

Qwen2.5-math gegen Qwen2-Math

Der Vergleich zwischen QWEN2.5-MATH und QWEN2-MATH unterstreicht die Fortschritte in der mathematischen Argumentation und den Problemlösungsfunktionen, die bei der neuesten Iteration der math-spezifischen Sprachmodelle von Alibaba Cloud erzielt wurden.

Eigentum Qwen2-math Qwen2.5-math
Datengröße vor dem Training 700B -Token (von Qwen Math Corpus V1) Über 1T -Token (von Qwen Math Corpus V2)
Sprachen unterstützt Englisch Englisch und Chinesisch
Ansatz Gedächtniskette (COT) Kette der Gedanken (COT), Werkzeug integriertes Denken (TIR)
Benchmark-Score (GSM8K, Math und MMLU-Stem) 89.1, 60,5, 79,1 90,8, 66,8, 82,8
Modellvarianten Qwen2-Math-1.5b/7b/72b Qwen2.5-math-1.5b/7b/72b

Trainingsdaten optimieren

Die QWEN2.5-MATH-Serie wird unter Verwendung des Qwen Math Corpus V2 geschult, der über 1 Billion hochwertige mathematische Daten-Token sowohl in Englisch als auch in Chinesisch besteht. Dieser Datensatz enthält synthetische mathematische Daten, die unter Verwendung des QWEN2-Math-72B-Instruct-Modells und aggregierter mathematischer chinesischer Daten aus Webinhalten, Büchern und Code-Repositories über mehrere Rückrufzyklen generiert wurden.

Kette der Gedanken (COT)

Der Datensatz (COT) der Kette für QWEN2.5-MATH ist eine umfassende Sammlung mathematischer Probleme, die darauf abzielen, die Argumentationsfunktionen des Modells zu verbessern. Es enthält:

  • 580K Englisch und 500K -mathematische Probleme, einschließlich annotierter und synthetisierter Elemente.
  • Die kommentierten Daten stammen aus Quellen wie GSM8K, Math und Numinamath.

TIR-Datensatz (Tool-Integrated Argumenting)

Um die rechnerischen und algorithmischen Herausforderungen zu bewältigen, denen sich die COT-Aufforderung stellt-wie die Lösung quadratischer Gleichungen oder Berechnung von Eigenwerten-wurde der Datensatz mit Tool-Integrated Argumenting (TIR) ​​eingeführt. Dieser Datensatz verbessert die Kenntnisse des Modells in der symbolischen Manipulation und den genauen Berechnungen, indem es ihm ermöglicht, einen Python -Dolmetscher für Argumentationsaufgaben zu verwenden. Es enthält:

  • 190.000 Probleme von Benchmarks wie GSM8K, Math, Collegerath und Numinamath.
  • 205K -Probleme, die mithilfe von Techniken von Mugglemath und Dotamath erzeugt wurden, um Abfragen innerhalb von GSM8K- und Mathematik -Trainingsempfängern zu entwickeln.

Effizientes Modelltraining

Erste Schritte mit Qwen2.5-Math

Da das QWEN2.5-MATH-Modell die verbesserte Version des QWEN2-MATH-Modells ist, wird sein Training so wie folgt von Qwen2-Math abgeleitet:

  • QWEN2-MATH-Modelle trainieren auf Qwen Math Corpus V1, einem hochwertigen Datensatz, der ungefähr 700 Milliarden Token mathematischer Inhalte enthält.
  • Entwickler schulen ein mathematisches Belohnungsmodell, Qwen2-Math-RM, abgeleitet vom QWEN2-Math-72B-Modell.
  • Die Basismodelle der QWEN2.5 -Serie dienen zur Parameterinitialisierung, zur Verbesserung der Funktionen des Sprachverständnisses, der Codegenerierung und der Funktionen des Textes.
  • Nach dem Training des Basis-QWEN2.5-MATH-Modells trainieren Entwickler ein mathematisches Belohnungsmodell, Qwen2.5-Math-RM-72B, basierend auf Qwen2.5-Math-72b. Dieses Belohnungsmodell entwickelt die SFT-Daten durch Ableitungsstichproben für das SFT-Modell (QWEN2.5-MATH-SFT).
  • Ein Anweisungsmodell (QWEN2.5-MATH-ISTRAUT) ist am Ende gebaut, um die Qualität der Antworten zu polieren. Dieses Modell wird durch eine zusätzliche Iteration unter Verwendung der QWEN2-MATH-Instruct-Modelle und QWEN2.5-Math-RM-72b erstellt. Der Prozess umfasst Tool-integrierte Argumentationsdaten (TIR) ​​und SFT-Daten, die über Gruppenrelationsrichtlinienoptimierung (GRPO) verfeinert wurden, um die Leistung des Modells weiter zu polieren.

Modellleistung optimieren

Die Verbesserung der Modellleistung ist der Schlüssel für die Bereitstellung schneller und genauerer Ergebnisse, um die Effizienz und Zuverlässigkeit bei Anwendungen zu gewährleisten.

Basismodelle Leistung

Die Basismodelle Qwen2.5-Math-1,5b/7b/72b erzielten signifikante Verbesserungen der englischen Mathematik-Benchmarks (GSM8K, Math und MMLU-Stem) und chinesischen Mathematik-Benchmarks (CMath, Gaokao Math Cloze und Gaokao Math QA) im Vergleich zu Qwen2-math-1.5b/7b/7b/7b/7b/7b/72b.

Erste Schritte mit Qwen2.5-Math

Beispielsweise zeigen QWEN2.5-MATH-1,5B/7B/72B-Modelle eine signifikante Verbesserung von 5,4, 5,0, 6,3 in der Mathematik und eine Verbesserung von 3,4, 12,2, 19,8 auf Gaokao Mathematik-QA.

Auftragsleistung der Befehlsabbau

Das QWEN2.5-MATH-72B-Instruct-Modell übertraf sowohl Open-Source-Modelle als auch Top-Modelle mit geschlossenen Source wie GPT-4O und Gemini Math-spezialisiert 1.5 Pro.

Erste Schritte mit Qwen2.5-Math

Das QWEN2.5-MATH-72B-Instruct-Modell übertrifft seinen Vorgänger (das QWEN2-Math-72B-Instrukturmodell) um durchschnittlich 4,4 Punkte in englischer Sprache und 6,1 Punkte auf Chinesisch. Diese Aufführung markiert seine Position als führendes mathematisches Open-Source-Modell, das heute verfügbar ist.

Auf den äußerst herausfordernden Benchmarks wie Aime 2024 und AMC23 lösen Modelle wie Claude3 Opus, GPT-4 Turbo und Gemini 1.5 Pro nur 1 oder 2 von 30 Problemen. Im Gegensatz dazu zeigt Qwen2.5-Math-72B-Instruktur eine bemerkenswerte Leistung, die 9 Probleme im gierigen Dekodierungs-COT-Modus und 12 Probleme im TIR-Modus löst. Darüber hinaus erreicht Qwen2.5-Math-7b-Instruction mit Unterstützung des Belohnungsmodells (RM) beeindruckende 21 gelöste Probleme und zeigt seine überlegenen Funktionen der mathematischen Problemlösung.

Erste Schritte mit Qwen2.5-Math

Laufen Demo

Lassen Sie uns die QWEN2.5-MATH-Demo hier mit dem Umarmungsfeldbereich sehen.

Dieser Speicherplatz bietet eine webbasierte Benutzeroberfläche, um mathematische oder arithmetische Probleme im Bild- oder Textformat einzugeben, um die Funktionen des Modells zu testen.

Um Multimodalitäten zu unterstützen, verwendet dieser Raum Qwen2-VL für OCR und QWEN2.5-MATH für mathematisches Denken.

STEP1: Extrahieren des mathematischen Inhalts mit QWEN-VL

QWEN-VL (QWEN Large Vision Language Model) ist das multimodale Sehsprachenmodell, das Bilder, Text als Eingaben, unterstützt. Es unterstützt natürlich Englisch und Chinesisch, verschiedene Aufgaben zur Erzeugung von Image-zu-Text-Erzeugung wie Bildunterschriften, visuelle Fragen zu beantworten, visuelles Denken, Texterkennung usw.

QWEN-VL-Serie enthält viele Modelle wie Qwen-VL, Qwen-VL-Chat, Qwen-VL-Plus, Qwen-VL-Max
usw. Qwen-VL-Max ist Qwens fähigstes großes visuelles Sprachmodell, um eine optimale Leistung bei einem noch breiteren Bereich komplexer Aufgaben zu liefern.

Das System verwendet das QWEN-VL-MAX-0809-Modell, um Textinformationen aus den Eingabebildern zu verstehen, zu verarbeiten und zu extrahieren. Die Funktion process_image () empfängt zunächst das Eingabebild und extrahiert den mathematischen Inhalt, um eine genaue Transkription von Latexformeln zu gewährleisten. Das System wendet dann die folgende Standardaufforderung an, um den mathematischen Inhalt aus dem Bild zu extrahieren.

Die Eingabeaufforderung anweist: „Beschreiben Sie den mathematischen Inhalt in diesem Bild und gewährleisten eine genaue Transkription von Latexformeln. Beschreiben Sie nicht mathematische Details. “

 OS importieren

OS.System ('PIP -Installation von DashScope -u')
tempfile importieren
vom Pathlib -Importpfad
Geheimnisse importieren
DashScope importieren
Aus demhscope Import multimodalconversation, Generation
vom PIL -Importbild



Your_api_token = os.getenv ('your_api_token')
DashScope.api_key = your_api_token
math_messages = []
Def process_image (Bild, sollte convert = false):

    global math_messages
    math_messages = [] # Zurücksetzen beim Hochladen im Bild
    Uploaded_file_dir = os.environ.get ("Gradio_Temp_dir") oder Str ("
        Pfad (tempfile.getTempDir ()) / "Gradio"
    )
    os.makedirs (uploaded_file_dir, exist_ok = true)
    

    name = f "tmp {secrets.token_hex (20)}. JPG"
    Dateiname = os.path.join (Uploadd_file_dir, Name)

    wenn sollte es konvertieren:
        new_img = image.new ('rgb', size = (image.width, image.height), color = (255, 255, 255))
        new_img.paste (Bild, (0, 0), mask = Bild)
        Image = new_img
    Bild.Save (Dateiname)
    

    messus = [{
        'Rolle': 'System',
        'Inhalt': [{'text': 'du bist ein hilfreicher Assistent.'}]
    }, {
        "Rolle": "Benutzer",
        'Inhalt': [
            {'Bild': f'file: // {Dateiname} '},
            {'text': 'Bitte beschreiben Sie den mathematischen Inhalt in diesem Bild und stellen Sie sicher, dass alle Latexformeln korrekt transkribiert werden. Nicht mathematische Details müssen nicht beschrieben werden. '}
        ]
    }]
    
    response = multimodalconversation.call (model = 'qwen-vl-max-0809', Messages = Nachrichten)
    

    os.remove (Dateiname)
    
    return response.output.choices [0] ["Nachricht"] ["Inhalt"]#CSV importieren

STEP2: Mathematisches Denken unter Verwendung von Qwen2.5-Math

Dieser Schritt extrahiert die Bildbeschreibung, die dann zusammen mit der Benutzerfrage an das QWEN2.5 -Modell übergeben wird, um die Antwort zu generieren. Das QWEN2.5-Math-72B-Instruct-Modell führt in diesem Prozess die mathematische Argumentation durch.

 Def get_math_response (Image_Description, user_question):
    global math_messages
    Wenn nicht math_messages:
        math_messages.append ({'rolle': 'system', 'content': 'du bist ein hilfreicher mathematischer Assistenten.'})
    math_messages = math_messages [: 1]
    Wenn Image_Description nicht ist:
        content = f'image Beschreibung: {image_description} \ n \ n '
    anders:
        content = ''
    query = f "{content} Benutzerfrage: {user_question}"
    Math_Messages.Append ({'Rolle': 'Benutzer', 'Inhalt': Abfrage})
    Antwort = Generation.Call (	
        model = "Qwen2.5-math-72b-instruct",
        messages = math_messages,	
        result_format = 'message',
        stream = true
    )
    Antwort = keine
    für resp als Antwort:
        Wenn resp.output keine ist:
            weitermachen
        Antwort = resp.output.choices [0] .Message.Content
        Relief Antwort.Replace ("\\", "\\\\")
    print (f'Query: {query} \ nanswer: {Antwort} ')
    Wenn die Antwort keine ist:
        math_messages.pop ()
    anders:
        math_messages.append ({'Rolle': 'Assistant', 'Inhalt': Antwort})

Nachdem wir über die in diesem Raum verwendeten Modelle bekannt sind, sehen wir einige Beispiele dazu
Bewerten Sie die Modellfähigkeit, mathematische oder arithmetische Probleme zu lösen.

Beispiel1

Ein Eingabebild, das die folgende Problemanweisung enthält -

Erste Schritte mit Qwen2.5-Math

Das Modell findet die Werte von x als 5 und y als 2. es liefert auch Schritt für Schritt
Natürliche Sprachbedenken beim Finden der Werte von x und y.

Beispiel2

Ein Eingabebild, das die folgende Problemanweisung enthält -

Erste Schritte mit Qwen2.5-Math

Das Modell findet den Wert des letzten Ausdrucks als 50 heraus.

Beispiel3

Ein Eingabebild, das die folgende Problemanweisung enthält -

Erste Schritte mit Qwen2.5-Math

Das Modell findet den Wert des obigen Ausdrucks als 5 heraus.

Abschluss

In diesem Artikel haben wir QWEN2.5-MATH untersucht-eine Reihe mathematischer Modelle mit robusten Argumentationsfunktionen. Wir untersuchten seine Komponenten, Schulungsdaten, Architektur und Leistung auf verschiedenen Standardbenchmarks. Darüber hinaus haben wir die Demo überprüft und sie mit einer Reihe von moderaten bis komplexen Beispielen getestet.

Key Takeaways

  • Die QWEN2.5-MATH-Modelle unterstützen sowohl chinesische als auch Englisch und präsentieren fortschrittliche Funktionen für mathematische Argumentation. Es verwendet Techniken wie Kette der Gedanken (COT) und Werkzeug-integriertes Denken (TIR).
  • Die QWEN2.5 -Serie enthält mehrere Varianten basierend auf der Anzahl der Parameter, wobei Modelle in Parametern von 1,5B, 7B und 72B verfügbar sind.
  • Die QWEN2.5-MATH-Modelle nutzen 1 Billionen Token für die Vorausbildung, ein erheblicher Anstieg gegenüber den 700 Milliarden Token, die für QWEN2-MATH verwendet werden.
  • QWEN2.5-MATH übertrifft Qwen2-math über verschiedene englische und chinesische Benchmarks. Darüber hinaus übertrifft es Modelle wie Claude3 Opus, GPT-4 Turbo und Gemini 1.5 Pro bei herausfordernden Benchmarks wie Aime 2024.

Häufig gestellte Fragen

Q1. Was ist der Unterschied zwischen Qwen2.5-Math und Qwen2-Math?

A. Qwen2.5-Math ist eine verbesserte Version von QWEN2-MATH, die eine verbesserte Leistung, eine bessere Genauigkeit bei der Lösung komplexer mathematischer Probleme und verbesserte Trainingstechniken bietet.

Q2. Welches Modell ist besser für komplexe mathematische Aufgaben, Qwen2.5-Math oder Qwen2-Math?

A. Qwen2.5-math übertrifft die QWEN2-MATH bei komplexen Aufgaben aufgrund seines fortschrittlichen Trainings und der verfeinerten Funktionen im mathematischen Denken typischerweise.

Q3. Wie gehen Qwen2.5-Math und Qwen2-Math mit mathematischer Begründung um?

A. Beide Modelle sind für mathematisches Denken ausgelegt, aber QWEN2.5 verwendet ausgefeiltere Algorithmen und Trainingsdaten, um herausfordernde Probleme effektiver zu lösen.

Q4. Welche Bedeutung hat die Trainingsdaten in QWEN2.5-MATH gegenüber QWEN2-MATH?

A. Qwen2.5-math profitiert von einem größeren und vielfältigeren Datensatz, was seine Fähigkeit, komplexe mathematische Probleme genauer zu verallgemeinern und zu lösen, verbessert als Qwen2-Math.

Q5. Gibt es Unterschiede in der Verarbeitungsgeschwindigkeit zwischen QWEN2.5-MATH und QWEN2-MATH?

A. Qwen2.5 optimiert eine schnellere Verarbeitung und liefert schnellere Antworten im Vergleich zu QWEN2-MATH und gleichzeitig eine hohe Genauigkeit.

Die in diesem Artikel gezeigten Medien sind nicht im Besitz von Analytics Vidhya und werden nach Ermessen des Autors verwendet.

Das obige ist der detaillierte Inhalt vonErste Schritte mit Qwen2.5-Math. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn