Rumah >Peranti teknologi >AI >Bermula dengan qwen2.5-math
Sejak beberapa tahun kebelakangan ini, kemajuan yang ketara telah dibuat dalam meneliti dan meningkatkan keupayaan pemikiran model bahasa yang besar, dengan tumpuan yang kuat untuk meningkatkan kemahiran mereka dalam menyelesaikan
Masalah aritmetik dan matematik.
Model dengan penalaran aritmetik dan matematik yang baik dapat membantu dalam:
Artikel ini menerangkan bagaimana kemajuan dalam penalaran matematik memacu inovasi dalam model AI seperti Qwen2.5-math dan aplikasinya dalam pembelajaran peribadi, penyelesaian masalah, dan reka bentuk kurikulum.
Siri Qwen2.5-Math adalah tambahan terbaru kepada siri QWEN Alibaba Cloud yang terbuka, model bahasa besar matematik. Ia mengikuti pelepasan awal Qwen2-Math, satu siri model bahasa matematik khusus berdasarkan LLM QWEN2. Model-model ini menunjukkan keupayaan matematik yang unggul, melampaui kedua-dua alternatif sumber terbuka dan juga beberapa model sumber tertutup seperti GPT-4O.
Siri ini menunjukkan peningkatan prestasi yang signifikan terhadap siri Qwen2-Math mengenai penanda aras matematik Cina dan Inggeris. Walaupun siri ini memohon rantaian (COT) untuk menyelesaikan masalah matematik khusus bahasa Inggeris, siri QWEN.5-MATH memperluaskan keupayaannya dengan menggabungkan kedua-dua COT dan Alat bersepadu (TIR), untuk menangani masalah matematik dalam bahasa Cina dan Inggeris dengan berkesan.
Perbandingan antara Qwen2.5-Math dan Qwen2-Math menyoroti kemajuan dalam pemikiran matematik dan keupayaan penyelesaian masalah yang dicapai dalam lelaran terkini model bahasa matematik Alibaba Cloud.
Harta | Qwen2-math | Qwen2.5-math |
---|---|---|
Saiz data pra-latihan | Token 700B (dari Qwen Math Corpus v1) | Lebih dari 1T Token (dari Qwen Math Corpus v2) |
Bahasa disokong | Bahasa Inggeris | Bahasa Inggeris dan Cina |
Pendekatan | Rantai-of-Whought (COT) | Rantai-of-Thought (COT), Alat bersepadu (TIR) |
Skor penanda aras (GSM8K, Matematik, dan MMLU-STEM) | 89.1, 60.5, 79.1 | 90.8, 66.8, 82.8 |
Varian model | QWEN2-MATH-1.5B/7B/72B | QWEN.5-MATH-1.5B/7B/72B |
Siri Qwen2.5-math dilatih menggunakan Qwen Math Corpus V2, yang terdiri daripada lebih dari 1 trilion token data matematik berkualiti tinggi dalam bahasa Inggeris dan Cina. Dataset ini merangkumi data matematik sintetik yang dihasilkan menggunakan model QWEN2-MATH-72B-Instruct dan data matematik Cina yang diperoleh daripada kandungan web, buku, dan repositori kod melalui pelbagai kitaran ingat.
Dataset rantaian (COT) untuk QWEN.5-MATH adalah koleksi masalah matematik yang komprehensif yang bertujuan meningkatkan keupayaan pemikiran model. Ia termasuk:
Untuk menangani cabaran pengiraan dan algoritma yang dihadapi oleh COT yang mendorong-seperti menyelesaikan persamaan kuadratik atau pengkomputeran eigen-nilai-data yang bersepadu alat (TIR) diperkenalkan. Dataset ini meningkatkan kemahiran model dalam manipulasi simbolik dan pengiraan yang tepat dengan membolehkannya menggunakan penterjemah python untuk tugas -tugas pemikiran. Ia termasuk:
Oleh kerana model Qwen2.5-math adalah versi dinaik taraf model Qwen2-math sehingga latihannya diperolehi dari Qwen2-math seperti berikut:
Meningkatkan prestasi model adalah kunci untuk menyampaikan hasil yang lebih cepat, lebih tepat, memastikan kecekapan dan kebolehpercayaan dalam aplikasi.
Model asas Qwen2.5-math-1.5b/7b/72b mencapai peningkatan yang signifikan terhadap penanda aras matematik bahasa Inggeris (GSM8K, matematik , dan mmlu-stem) dan penanda aras matematik Cina (cmath, gaokao matematik cloze, dan gaokao math qa)
Sebagai contoh, model QWEN.5-MATH-1.5B/7B/72B menunjukkan peningkatan yang ketara sebanyak 5.4, 5.0, 6.3 pada matematik, dan peningkatan skor 3.4, 12.2, 19.8 pada Gaokao Math Qa.
Model QWEN.5-MATH-72B-Instruct mengatasi kedua-dua model sumber terbuka dan model sumber tertutup teratas, seperti GPT-4O dan Gemini matematik-khususnya 1.5 Pro.
Model QWEN.5-MATH-72B-Instruct melampaui pendahulunya (model QWEN2-MATH-72B-Instruct) dengan purata 4.4 mata dalam bahasa Inggeris dan 6.1 mata dalam bahasa Cina. Prestasi ini menandakan kedudukannya sebagai model matematik sumber terbuka yang tersedia hari ini.
Pada tanda aras yang sangat mencabar seperti AIME 2024 dan AMC23, model seperti Claude3 Opus, GPT-4 Turbo, dan Gemini 1.5 Pro menyelesaikan hanya 1 atau 2 daripada 30 masalah. Sebaliknya, QWEN2.5-MATH-72B-Instruct menunjukkan prestasi yang luar biasa, menyelesaikan 9 masalah dalam mod penyahkodan tamak dan 12 masalah dalam mod TIR. Selain itu, dengan bantuan model ganjaran (RM), QWEN.5-MATH-7B-Instruct mencapai 21 masalah yang diselesaikan, mempamerkan keupayaan menyelesaikan masalah matematiknya.
Mari lihat demo Qwen2.5-math menggunakan ruang Huggingface di sini.
Ruang ini menyediakan antara muka pengguna berasaskan web untuk memasukkan masalah matematik atau aritmetik dalam format imej atau teks untuk menguji keupayaan model.
Untuk menyokong pelbagai modaliti ruang ini menggunakan QWEN2-VL untuk OCR dan QWEN.5-Math untuk penalaran matematik.
Qwen-VL (model bahasa penglihatan besar Qwen) adalah model bahasa penglihatan multimodal yang menyokong imej, teks sebagai input. Ia secara semulajadi menyokong bahasa Inggeris dan Cina untuk melaksanakan pelbagai tugas generasi imej-ke-teks seperti tajuk imej, soal jawab visual, penalaran visual, pengiktirafan teks, dll.
Siri Qwen-VL mengandungi banyak model seperti QWEN-VL, QWEN-VL-CHAT, QWEN-VL-PLUS, QWEN-VL-MAX
dan lain-lain. Qwen-VL-Max adalah model bahasa visual yang paling berkebolehan Qwen untuk memberikan prestasi yang optimum pada pelbagai tugas yang lebih luas.
Sistem ini menggunakan model QWEN-VL-MAX-0809 untuk memahami, memproses, dan mengekstrak maklumat teks dari imej input. Fungsi Process_image () mula-mula menerima imej input dan mengekstrak kandungan yang berkaitan dengan matematik, memastikan transkripsi yang tepat bagi mana-mana formula lateks. Sistem itu kemudian menggunakan prompt standard berikut untuk mengekstrak kandungan tekstual, berkaitan dengan matematik dari imej.
Prompt mengarahkan: "Huraikan kandungan yang berkaitan dengan matematik dalam imej ini, memastikan transkripsi yang tepat bagi mana-mana formula lateks. Jangan terangkan butiran bukan matematik. "
Import OS os.system ('Pip Install Dashscope -u') import tempfile dari laluan import patlib Import Rahsia Import Dashscope Dari Dashscope Import Multimodalconversation, Generasi dari gambar import pil Your_api_token = os.getenv ('your_api_token') dashscope.api_key = your_api_token math_messages = [] def process_image (imej, conflonvert = false): Math_messages global math_messages = [] # tetapkan semula semasa memuat naik gambar uploaded_file_dir = os.environ.get ("gradio_temp_dir") atau str ( Jalan (tempfile.getTempdir ()) / "Vadio" ) os.makedirs (uploaded_file_dir, exist_ok = true) name = f "tmp {secrets.token_hex (20)}. jpg" nama fail = os.path.join (uploaded_file_dir, nama) Sekiranya harus menonjol: new_img = image.new ('rgb', size = (image.width, image.height), warna = (255, 255, 255)) new_img.paste (imej, (0, 0), topeng = imej) imej = new_img Image.save (nama fail) mesej = [{ 'Peranan': 'Sistem', 'Kandungan': [{'Text': 'Anda adalah pembantu yang membantu.'}] }, { 'peranan': 'pengguna', 'Kandungan': [ {'image': f'file: // {filename} '}, {'Text': 'Sila terangkan kandungan yang berkaitan dengan matematik dalam imej ini, memastikan bahawa mana-mana formula lateks ditranskripsikan dengan betul. Butiran bukan matematik tidak perlu diterangkan. '} ] }] respons = multimodalconversation.call (model = 'qwen-vl-max-0809', mesej = mesej) os.remove (nama fail) Kembali Response.Output.Choices [0] ["Mesej"] ["Kandungan"]#Import CSV
Langkah ini mengekstrak penerangan imej, yang kemudiannya diserahkan kepada model QWEN2.5 bersama -sama dengan soalan pengguna untuk menghasilkan respons. Model QWEN2.5-MATH-72B-Instruct melakukan penalaran matematik dalam proses ini.
def get_math_response (image_description, user_question): Math_messages global Sekiranya tidak math_messages: math_messages.append ({'Role': 'System', 'Content': 'Anda adalah pembantu matematik yang berguna.'}) math_messages = math_messages [: 1] Sekiranya image_description tidak ada: kandungan = f'image Description: {image_description} \ n \ n ' lain: kandungan = '' pertanyaan = f "{content} Soalan pengguna: {user_question}" math_messages.append ({'role': 'user', 'content': query}) respons = generasi.call ( Model = "QWEN.5-MATH-72B-Instruct", mesej = math_messages, result_format = 'Mesej', stream = benar ) Jawapan = Tiada untuk respon sebagai tindak balas: Sekiranya resp.output tidak ada: Teruskan jawapan = resp.output.choices [0] .message.content Hasil Jawapan.Replace ("\\", "\\\\") cetak (f'query: {query} \ nanswer: {answer} ') Sekiranya jawapannya tidak ada: math_messages.pop () lain: math_messages.append ('peranan': 'pembantu', 'kandungan': jawapan})
Setelah mengetahui tentang model yang digunakan di ruang ini, mari kita lihat beberapa contoh untuk
Menilai keupayaan model untuk menyelesaikan masalah matematik atau aritmetik.
Imej input yang mengandungi pernyataan masalah berikut -
Model ini mendapati nilai x sebagai 5 dan y sebagai 2. Ia juga menyediakan langkah demi langkah
Penalaran bahasa semulajadi sambil mencari nilai x dan y.
Imej input yang mengandungi pernyataan masalah berikut -
Model ini mengetahui nilai ungkapan terakhir sebagai 50.
Imej input yang mengandungi pernyataan masalah berikut -
Model ini mendapati nilai ungkapan di atas sebagai 5.
Dalam artikel ini, kami meneroka QWEN2.5-MATH-siri model matematik dengan keupayaan penalaran yang mantap. Kami mengkaji komponen, data latihan, seni bina, dan prestasi pada pelbagai tanda aras standard. Di samping itu, kami mengkaji semula demo, mengujinya dengan pelbagai contoh sederhana hingga kompleks.
A. Qwen2.5-Math adalah versi yang dinaik taraf Qwen2-Math, menawarkan prestasi yang lebih baik, ketepatan yang lebih baik dalam menyelesaikan masalah matematik yang kompleks, dan teknik latihan yang dipertingkatkan.
S2. Model mana yang lebih baik untuk tugas matematik yang kompleks, Qwen2.5-math atau Qwen2-math?A. Qwen2.5-math biasanya mengatasi qwen2-math pada tugas kompleks kerana latihan lanjutan dan keupayaan halus dalam penalaran matematik.
Q3. Bagaimanakah QWEN2.5-Math dan Qwen2-Math mengendalikan penalaran matematik?A. Kedua -dua model direka untuk penalaran matematik, tetapi Qwen2.5 menggunakan algoritma dan data latihan yang lebih canggih untuk menyelesaikan masalah yang mencabar dengan lebih berkesan.
Q4. Apakah kepentingan data latihan dalam QWEN.5-Math vs Qwen2-Math?A. Qwen2.5-math manfaat daripada dataset yang lebih besar dan lebih pelbagai, yang meningkatkan keupayaannya untuk umum dan menyelesaikan masalah matematik yang kompleks lebih tepat daripada Qwen2-math.
S5. Adakah terdapat perbezaan dalam kelajuan pemprosesan antara Qwen2.5-math dan Qwen2-math?A. QWEN2.5 mengoptimumkan pemprosesan yang lebih cepat dan memberikan respons yang lebih cepat berbanding dengan QWEN2-Math sambil mengekalkan ketepatan yang tinggi.
Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan atas budi bicara penulis.
Atas ialah kandungan terperinci Bermula dengan qwen2.5-math. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!