Rumah >Peranti teknologi >AI >Bermula dengan qwen2.5-math

Bermula dengan qwen2.5-math

William Shakespeare
William Shakespeareasal
2025-03-13 11:03:10883semak imbas

Sejak beberapa tahun kebelakangan ini, kemajuan yang ketara telah dibuat dalam meneliti dan meningkatkan keupayaan pemikiran model bahasa yang besar, dengan tumpuan yang kuat untuk meningkatkan kemahiran mereka dalam menyelesaikan
Masalah aritmetik dan matematik.

Model dengan penalaran aritmetik dan matematik yang baik dapat membantu dalam:

  • Pembelajaran yang diperibadikan: Tutor berkuasa AI boleh menyesuaikan diri dengan keperluan pelajar individu, elping mereka memahami konsep matematik yang kompleks dengan lebih berkesan.
  • Bantuan Penyelesaian Masalah: Mengaut automatik penjelasan langkah demi langkah untuk menyelesaikan masalah meningkatkan penglibatan dan pemahaman pelajar.
  • Reka Bentuk Kurikulum: Mewujudkan modul pembelajaran adaptif dan progresif dalam subjek seperti algebra dan kalkulus.

Artikel ini menerangkan bagaimana kemajuan dalam penalaran matematik memacu inovasi dalam model AI seperti Qwen2.5-math dan aplikasinya dalam pembelajaran peribadi, penyelesaian masalah, dan reka bentuk kurikulum.

Objektif pembelajaran

  • Memahami dan meneroka siri Qwen2.5-math dan komponennya.
  • Ketahui mengenai seni bina model Qwen2.5-math.
  • Dapatkan pendedahan tangan pada qwen2.5-math dengan contoh.
  • Ketahui tentang prestasi Qwen2.5-math pada pelbagai tanda aras.

Jadual Kandungan

  • Apa itu qwen2.5-math?
  • Qwen2.5-math vs Qwen2-math
  • Mengoptimumkan data latihan
  • Latihan model yang cekap
  • Mengoptimumkan prestasi model
  • Demo berjalan
  • Kesimpulan
  • Soalan yang sering ditanya

Apa itu qwen2.5-math?

Siri Qwen2.5-Math adalah tambahan terbaru kepada siri QWEN Alibaba Cloud yang terbuka, model bahasa besar matematik. Ia mengikuti pelepasan awal Qwen2-Math, satu siri model bahasa matematik khusus berdasarkan LLM QWEN2. Model-model ini menunjukkan keupayaan matematik yang unggul, melampaui kedua-dua alternatif sumber terbuka dan juga beberapa model sumber tertutup seperti GPT-4O.

Siri ini menunjukkan peningkatan prestasi yang signifikan terhadap siri Qwen2-Math mengenai penanda aras matematik Cina dan Inggeris. Walaupun siri ini memohon rantaian (COT) untuk menyelesaikan masalah matematik khusus bahasa Inggeris, siri QWEN.5-MATH memperluaskan keupayaannya dengan menggabungkan kedua-dua COT dan Alat bersepadu (TIR), untuk menangani masalah matematik dalam bahasa Cina dan Inggeris dengan berkesan.

Qwen2.5-math vs Qwen2-math

Perbandingan antara Qwen2.5-Math dan Qwen2-Math menyoroti kemajuan dalam pemikiran matematik dan keupayaan penyelesaian masalah yang dicapai dalam lelaran terkini model bahasa matematik Alibaba Cloud.

Harta Qwen2-math Qwen2.5-math
Saiz data pra-latihan Token 700B (dari Qwen Math Corpus v1) Lebih dari 1T Token (dari Qwen Math Corpus v2)
Bahasa disokong Bahasa Inggeris Bahasa Inggeris dan Cina
Pendekatan Rantai-of-Whought (COT) Rantai-of-Thought (COT), Alat bersepadu (TIR)
Skor penanda aras (GSM8K, Matematik, dan MMLU-STEM) 89.1, 60.5, 79.1 90.8, 66.8, 82.8
Varian model QWEN2-MATH-1.5B/7B/72B QWEN.5-MATH-1.5B/7B/72B

Mengoptimumkan data latihan

Siri Qwen2.5-math dilatih menggunakan Qwen Math Corpus V2, yang terdiri daripada lebih dari 1 trilion token data matematik berkualiti tinggi dalam bahasa Inggeris dan Cina. Dataset ini merangkumi data matematik sintetik yang dihasilkan menggunakan model QWEN2-MATH-72B-Instruct dan data matematik Cina yang diperoleh daripada kandungan web, buku, dan repositori kod melalui pelbagai kitaran ingat.

Dataset rantai (COT)

Dataset rantaian (COT) untuk QWEN.5-MATH adalah koleksi masalah matematik yang komprehensif yang bertujuan meningkatkan keupayaan pemikiran model. Ia termasuk:

  • 580K Bahasa Inggeris dan 500K Masalah matematik, termasuk kedua -dua item anotasi dan disintesis.
  • Data anotasi yang diperoleh daripada sumber seperti GSM8K, Matematik, dan Numinamath.

Dataset Alat Bersepadu (TIR)

Untuk menangani cabaran pengiraan dan algoritma yang dihadapi oleh COT yang mendorong-seperti menyelesaikan persamaan kuadratik atau pengkomputeran eigen-nilai-data yang bersepadu alat (TIR) ​​diperkenalkan. Dataset ini meningkatkan kemahiran model dalam manipulasi simbolik dan pengiraan yang tepat dengan membolehkannya menggunakan penterjemah python untuk tugas -tugas pemikiran. Ia termasuk:

  • Masalah 190K dari tanda aras seperti GSM8K, MATH, COLLEGEMATH, dan NUMINAMATH.
  • Masalah 205K dibuat menggunakan teknik dari Mugglemath dan Dotamath untuk mengembangkan pertanyaan dalam set latihan GSM8K dan matematik.

Latihan model yang cekap

Bermula dengan qwen2.5-math

Oleh kerana model Qwen2.5-math adalah versi dinaik taraf model Qwen2-math sehingga latihannya diperolehi dari Qwen2-math seperti berikut:

  • Model Qwen2-math melatih di Qwen Math Corpus v1, dataset berkualiti tinggi yang mengandungi kira-kira 700 bilion token kandungan matematik.
  • Pemaju melatih model ganjaran khusus matematik, QWEN2-MATH-RM, yang diperolehi daripada model QWEN2-MATH-72B.
  • Model asas siri Qwen2.5 berfungsi untuk inisialisasi parameter, meningkatkan pemahaman bahasa, penjanaan kod, dan keupayaan penalaran teks.
  • Selepas melatih model Qwen2.5-math, pemaju melatih model ganjaran khusus matematik, QWEN.5-MATH-RM-72B, berdasarkan QWEN2.5-MATH-72B. Model ganjaran ini mengubah data SFT melalui pensampelan penolakan untuk model SFT (QWEN2.5-MATH-SFT).
  • Model arahan (QWEN2.5-MATH-Instruct) dibina pada akhirnya untuk menggilap kualiti respons. Model ini dicipta melalui lelaran tambahan menggunakan model QWEN2-MATH-Instruct dan QWEN.5-MATH-RM-72B. Proses ini menggabungkan data penalaran alat (TIR) ​​dan data SFT, ditapis melalui pengoptimuman dasar relatif kumpulan (GRPO), untuk menggilap prestasi model.

Mengoptimumkan prestasi model

Meningkatkan prestasi model adalah kunci untuk menyampaikan hasil yang lebih cepat, lebih tepat, memastikan kecekapan dan kebolehpercayaan dalam aplikasi.

Prestasi model asas

Model asas Qwen2.5-math-1.5b/7b/72b mencapai peningkatan yang signifikan terhadap penanda aras matematik bahasa Inggeris (GSM8K, matematik , dan mmlu-stem) dan penanda aras matematik Cina (cmath, gaokao matematik cloze, dan gaokao math qa)

Bermula dengan qwen2.5-math

Sebagai contoh, model QWEN.5-MATH-1.5B/7B/72B menunjukkan peningkatan yang ketara sebanyak 5.4, 5.0, 6.3 pada matematik, dan peningkatan skor 3.4, 12.2, 19.8 pada Gaokao Math Qa.

Prestasi model yang disesuaikan dengan arahan

Model QWEN.5-MATH-72B-Instruct mengatasi kedua-dua model sumber terbuka dan model sumber tertutup teratas, seperti GPT-4O dan Gemini matematik-khususnya 1.5 Pro.

Bermula dengan qwen2.5-math

Model QWEN.5-MATH-72B-Instruct melampaui pendahulunya (model QWEN2-MATH-72B-Instruct) dengan purata 4.4 mata dalam bahasa Inggeris dan 6.1 mata dalam bahasa Cina. Prestasi ini menandakan kedudukannya sebagai model matematik sumber terbuka yang tersedia hari ini.

Pada tanda aras yang sangat mencabar seperti AIME 2024 dan AMC23, model seperti Claude3 Opus, GPT-4 Turbo, dan Gemini 1.5 Pro menyelesaikan hanya 1 atau 2 daripada 30 masalah. Sebaliknya, QWEN2.5-MATH-72B-Instruct menunjukkan prestasi yang luar biasa, menyelesaikan 9 masalah dalam mod penyahkodan tamak dan 12 masalah dalam mod TIR. Selain itu, dengan bantuan model ganjaran (RM), QWEN.5-MATH-7B-Instruct mencapai 21 masalah yang diselesaikan, mempamerkan keupayaan menyelesaikan masalah matematiknya.

Bermula dengan qwen2.5-math

Demo berjalan

Mari lihat demo Qwen2.5-math menggunakan ruang Huggingface di sini.

Ruang ini menyediakan antara muka pengguna berasaskan web untuk memasukkan masalah matematik atau aritmetik dalam format imej atau teks untuk menguji keupayaan model.

Untuk menyokong pelbagai modaliti ruang ini menggunakan QWEN2-VL untuk OCR dan QWEN.5-Math untuk penalaran matematik.

Langkah1: Mengekstrak kandungan yang berkaitan dengan matematik menggunakan qwen-vl

Qwen-VL (model bahasa penglihatan besar Qwen) adalah model bahasa penglihatan multimodal yang menyokong imej, teks sebagai input. Ia secara semulajadi menyokong bahasa Inggeris dan Cina untuk melaksanakan pelbagai tugas generasi imej-ke-teks seperti tajuk imej, soal jawab visual, penalaran visual, pengiktirafan teks, dll.

Siri Qwen-VL mengandungi banyak model seperti QWEN-VL, QWEN-VL-CHAT, QWEN-VL-PLUS, QWEN-VL-MAX
dan lain-lain. Qwen-VL-Max adalah model bahasa visual yang paling berkebolehan Qwen untuk memberikan prestasi yang optimum pada pelbagai tugas yang lebih luas.

Sistem ini menggunakan model QWEN-VL-MAX-0809 untuk memahami, memproses, dan mengekstrak maklumat teks dari imej input. Fungsi Process_image () mula-mula menerima imej input dan mengekstrak kandungan yang berkaitan dengan matematik, memastikan transkripsi yang tepat bagi mana-mana formula lateks. Sistem itu kemudian menggunakan prompt standard berikut untuk mengekstrak kandungan tekstual, berkaitan dengan matematik dari imej.

Prompt mengarahkan: "Huraikan kandungan yang berkaitan dengan matematik dalam imej ini, memastikan transkripsi yang tepat bagi mana-mana formula lateks. Jangan terangkan butiran bukan matematik. "

 Import OS

os.system ('Pip Install Dashscope -u')
import tempfile
dari laluan import patlib
Import Rahsia
Import Dashscope
Dari Dashscope Import Multimodalconversation, Generasi
dari gambar import pil



Your_api_token = os.getenv ('your_api_token')
dashscope.api_key = your_api_token
math_messages = []
def process_image (imej, conflonvert = false):

    Math_messages global
    math_messages = [] # tetapkan semula semasa memuat naik gambar
    uploaded_file_dir = os.environ.get ("gradio_temp_dir") atau str (
        Jalan (tempfile.getTempdir ()) / "Vadio"
    )
    os.makedirs (uploaded_file_dir, exist_ok = true)
    

    name = f "tmp {secrets.token_hex (20)}. jpg"
    nama fail = os.path.join (uploaded_file_dir, nama)

    Sekiranya harus menonjol:
        new_img = image.new ('rgb', size = (image.width, image.height), warna = (255, 255, 255))
        new_img.paste (imej, (0, 0), topeng = imej)
        imej = new_img
    Image.save (nama fail)
    

    mesej = [{
        'Peranan': 'Sistem',
        'Kandungan': [{'Text': 'Anda adalah pembantu yang membantu.'}]
    }, {
        'peranan': 'pengguna',
        'Kandungan': [
            {'image': f'file: // {filename} '},
            {'Text': 'Sila terangkan kandungan yang berkaitan dengan matematik dalam imej ini, memastikan bahawa mana-mana formula lateks ditranskripsikan dengan betul. Butiran bukan matematik tidak perlu diterangkan. '}
        ]
    }]
    
    respons = multimodalconversation.call (model = 'qwen-vl-max-0809', mesej = mesej)
    

    os.remove (nama fail)
    
    Kembali Response.Output.Choices [0] ["Mesej"] ["Kandungan"]#Import CSV

Langkah2: Penalaran Matematik Menggunakan Qwen2.5-Math

Langkah ini mengekstrak penerangan imej, yang kemudiannya diserahkan kepada model QWEN2.5 bersama -sama dengan soalan pengguna untuk menghasilkan respons. Model QWEN2.5-MATH-72B-Instruct melakukan penalaran matematik dalam proses ini.

 def get_math_response (image_description, user_question):
    Math_messages global
    Sekiranya tidak math_messages:
        math_messages.append ({'Role': 'System', 'Content': 'Anda adalah pembantu matematik yang berguna.'})
    math_messages = math_messages [: 1]
    Sekiranya image_description tidak ada:
        kandungan = f'image Description: {image_description} \ n \ n '
    lain:
        kandungan = ''
    pertanyaan = f "{content} Soalan pengguna: {user_question}"
    math_messages.append ({'role': 'user', 'content': query})
    respons = generasi.call (	
        Model = "QWEN.5-MATH-72B-Instruct",
        mesej = math_messages,	
        result_format = 'Mesej',
        stream = benar
    )
    Jawapan = Tiada
    untuk respon sebagai tindak balas:
        Sekiranya resp.output tidak ada:
            Teruskan
        jawapan = resp.output.choices [0] .message.content
        Hasil Jawapan.Replace ("\\", "\\\\")
    cetak (f'query: {query} \ nanswer: {answer} ')
    Sekiranya jawapannya tidak ada:
        math_messages.pop ()
    lain:
        math_messages.append ('peranan': 'pembantu', 'kandungan': jawapan})

Setelah mengetahui tentang model yang digunakan di ruang ini, mari kita lihat beberapa contoh untuk
Menilai keupayaan model untuk menyelesaikan masalah matematik atau aritmetik.

Contoh1

Imej input yang mengandungi pernyataan masalah berikut -

Bermula dengan qwen2.5-math

Model ini mendapati nilai x sebagai 5 dan y sebagai 2. Ia juga menyediakan langkah demi langkah
Penalaran bahasa semulajadi sambil mencari nilai x dan y.

Contoh2

Imej input yang mengandungi pernyataan masalah berikut -

Bermula dengan qwen2.5-math

Model ini mengetahui nilai ungkapan terakhir sebagai 50.

Contoh3

Imej input yang mengandungi pernyataan masalah berikut -

Bermula dengan qwen2.5-math

Model ini mendapati nilai ungkapan di atas sebagai 5.

Kesimpulan

Dalam artikel ini, kami meneroka QWEN2.5-MATH-siri model matematik dengan keupayaan penalaran yang mantap. Kami mengkaji komponen, data latihan, seni bina, dan prestasi pada pelbagai tanda aras standard. Di samping itu, kami mengkaji semula demo, mengujinya dengan pelbagai contoh sederhana hingga kompleks.

Takeaways utama

  • Model Qwen2.5-math menyokong kedua-dua Cina dan Bahasa Inggeris dan mempamerkan keupayaan penalaran matematik maju. Ia menggunakan teknik-teknik seperti rantaian (COT) dan pemikiran bersepadu alat (TIR).
  • Siri Qwen2.5 termasuk pelbagai varian berdasarkan bilangan parameter, dengan model yang terdapat dalam parameter 1.5b, 7b, dan 72b.
  • Model Qwen2.5-math memanfaatkan token 1 trilion untuk pra-latihan, peningkatan yang besar berbanding dengan 700 bilion token yang digunakan untuk Qwen2-math.
  • Qwen2.5-Math melampaui qwen2-math di pelbagai tanda aras bahasa Inggeris dan Cina. Di samping itu, ia melebihi model seperti Claude3 Opus, GPT-4 Turbo, dan Gemini 1.5 Pro pada tanda aras yang mencabar seperti AIME 2024.

Soalan yang sering ditanya

Q1. Apakah perbezaan antara Qwen2.5-math dan Qwen2-math?

A. Qwen2.5-Math adalah versi yang dinaik taraf Qwen2-Math, menawarkan prestasi yang lebih baik, ketepatan yang lebih baik dalam menyelesaikan masalah matematik yang kompleks, dan teknik latihan yang dipertingkatkan.

S2. Model mana yang lebih baik untuk tugas matematik yang kompleks, Qwen2.5-math atau Qwen2-math?

A. Qwen2.5-math biasanya mengatasi qwen2-math pada tugas kompleks kerana latihan lanjutan dan keupayaan halus dalam penalaran matematik.

Q3. Bagaimanakah QWEN2.5-Math dan Qwen2-Math mengendalikan penalaran matematik?

A. Kedua -dua model direka untuk penalaran matematik, tetapi Qwen2.5 menggunakan algoritma dan data latihan yang lebih canggih untuk menyelesaikan masalah yang mencabar dengan lebih berkesan.

Q4. Apakah kepentingan data latihan dalam QWEN.5-Math vs Qwen2-Math?

A. Qwen2.5-math manfaat daripada dataset yang lebih besar dan lebih pelbagai, yang meningkatkan keupayaannya untuk umum dan menyelesaikan masalah matematik yang kompleks lebih tepat daripada Qwen2-math.

S5. Adakah terdapat perbezaan dalam kelajuan pemprosesan antara Qwen2.5-math dan Qwen2-math?

A. QWEN2.5 mengoptimumkan pemprosesan yang lebih cepat dan memberikan respons yang lebih cepat berbanding dengan QWEN2-Math sambil mengekalkan ketepatan yang tinggi.

Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan atas budi bicara penulis.

Atas ialah kandungan terperinci Bermula dengan qwen2.5-math. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn