Data sintetik terus membuka kunci potensi penaakulan matematik model besar!
Keupayaan menyelesaikan masalah matematik sentiasa dianggap sebagai penunjuk penting tahap kecerdasan model bahasa. Biasanya hanya model atau model yang sangat besar yang telah menjalani pra-latihan matematik yang meluas mempunyai peluang untuk berprestasi baik dalam masalah matematik. Baru-baru ini, kerja penyelidikan Xwin yang dibuat oleh pasukan Swin-Transformer dan disiapkan bersama oleh sarjana dari Universiti Xi'an Jiaotong, Universiti Sains dan Teknologi China, Universiti Tsinghua dan Microsoft Research Asia telah mematahkan persepsi ini dan mendedahkan The 7B (iaitu 7 bilion parameter) model bahasa berskala (LLaMA-2-7B) di bawah pra-latihan am telah menunjukkan potensi yang kuat dalam menyelesaikan masalah matematik, dan boleh menggunakan kaedah penalaan halus diselia berdasarkan data sintetik untuk menjadikan model semakin banyak. cekap. Rangsangan mantap kebolehan matematik. Kajian ini diterbitkan di arXiv, bertajuk "Model Bahasa 7B Biasa Sudah Memiliki Keupayaan Matematik yang Kuat".
- Pautan kertas: https://arxiv.org/pdf/2403.04706.pdf
- Pautan kod: https://github.com/Xwin-LM/Xwin-LM
Pasukan penyelidik mula-mula menggunakan hanya 7.5K data untuk memperhalusi arahan model LLaMA-2-7B, dan kemudian menilai prestasi model dalam GSM8K dan MATH. Keputusan eksperimen menunjukkan bahawa apabila memilih jawapan terbaik daripada 256 jawapan yang dihasilkan untuk setiap soalan dalam set ujian, ketepatan ujian masing-masing boleh mencapai 97.7% dan 72.0% Keputusan ini menunjukkan bahawa walaupun di bawah pra-latihan umum, tahap 7B Penemuan bahawa walaupun model kecil mempunyai potensi untuk menjana jawapan berkualiti tinggi mencabar pandangan sebelumnya bahawa potensi untuk penaakulan matematik yang berkuasa tidak terhad kepada model pra-latihan berskala besar dan berkaitan dengan matematik.
Walau bagaimanapun, penyelidikan juga menunjukkan bahawa walaupun mempunyai potensi penaakulan matematik yang kuat, masalah utama model bahasa semasa ialah sukar untuk secara konsisten merangsang keupayaan matematik yang wujud. Sebagai contoh, jika hanya satu jawapan yang dijana bagi setiap soalan dipertimbangkan dalam percubaan sebelumnya, ketepatan pada penanda aras GSM8K dan MATH akan turun kepada 49.5% dan 7.9%, masing-masing. Ini mencerminkan ketidakstabilan keupayaan matematik model. Untuk menyelesaikan masalah ini, pasukan penyelidik menggunakan kaedah mengembangkan set data penalaan halus yang diselia (SFT) dan mendapati bahawa dengan peningkatan data SFT, kebolehpercayaan model dalam menjana jawapan yang betul telah bertambah baik dengan ketara. Kajian itu juga menyebut bahawa dengan menggunakan data sintetik, set data SFT boleh diperbesarkan dengan berkesan, dan kaedah ini hampir sama berkesan dengan data sebenar. Pasukan penyelidik menggunakan API Turbo GPT-4 untuk menjana soalan matematik sintetik dan proses penyelesaian masalah, dan memastikan kualiti soalan melalui kata gesaan pengesahan mudah. Melalui kaedah ini, pasukan itu berjaya mengembangkan set data SFT daripada 7.5K kepada kira-kira satu juta sampel, mencapai undang-undang penskalaan yang hampir sempurna. Model Xwin-Math-7B yang dihasilkan masing-masing mencapai ketepatan 82.6% dan 40.6% pada GSM8K dan MATH, dengan ketara mengatasi model SOTA sebelumnya malah mengatasi beberapa model 70B, mencapai peningkatan lonjakan. Model Xwin-Math-70B mencapai keputusan 52.8% pada set penilaian MATH, dengan ketara mengatasi versi awal GPT-4. Ini adalah kali pertama penyelidikan berdasarkan siri LLaMA model asas telah mengatasi GPT-4 pada MATH.
Para penyelidik juga mentakrifkan penunjuk penilaian Pass@N dan PassRatio@N, berhasrat untuk menilai sama ada model boleh mengeluarkan jawapan yang betul (menunjukkan potensi keupayaan matematik model) dan perkadaran jawapan yang betul antara N keluaran model Skala (menunjukkan kestabilan keupayaan matematik model). Apabila jumlah data SFT adalah kecil, Pass@256 model sudah sangat tinggi Selepas mengembangkan lagi skala data SFT, Pass@256 model meningkat dengan sangat sedikit, manakala PassRatio@256 meningkat dengan ketara. Ini menunjukkan bahawa penalaan halus diselia berdasarkan data sintetik adalah cara yang berkesan untuk meningkatkan kestabilan keupayaan matematik model.
Selain itu, kajian ini memberikan cerapan tentang tingkah laku penskalaan di bawah kerumitan penaakulan dan jenis ralat yang berbeza. Sebagai contoh, apabila saiz set data SFT bertambah, ketepatan model dalam menyelesaikan masalah matematik mengikuti perhubungan undang-undang kuasa dengan bilangan langkah inferens. Dengan meningkatkan perkadaran langkah inferens panjang dalam sampel latihan, ketepatan model dalam menyelesaikan masalah sukar boleh dipertingkatkan dengan ketara. Pada masa yang sama, kajian juga mendapati bahawa kesilapan pengiraan lebih mudah dikurangkan daripada kesilapan penaakulan.
Dalam Peperiksaan Matematik Sekolah Menengah Hungary, yang menyatakan keupayaan generalisasi penaakulan matematik model, Xwin-Math juga mendapat markah 65%, kedua selepas GPT-4. Ini menunjukkan bahawa cara data disintesis dalam kajian tidak terlalu sesuai dengan set penilaian dan menunjukkan keupayaan generalisasi yang baik.
Kajian ini bukan sahaja menunjukkan keberkesanan data sintetik dalam mengembangkan data SFT, tetapi juga memberikan perspektif baharu tentang penyelidikan model bahasa besar dalam keupayaan penaakulan matematik. Pasukan penyelidik menyatakan bahawa kerja mereka meletakkan asas untuk penerokaan dan kemajuan masa depan dalam bidang ini, dan berharap untuk mempromosikan kecerdasan buatan untuk mencapai kejayaan yang lebih besar dalam menyelesaikan masalah matematik. Dengan kemajuan berterusan teknologi kecerdasan buatan, kami mempunyai sebab untuk menjangkakan bahawa AI akan menunjukkan prestasi yang lebih baik dalam bidang matematik dan memberikan lebih banyak bantuan kepada manusia untuk menyelesaikan masalah matematik yang kompleks. Artikel ini juga merangkumi keputusan eksperimen ablasi dan penunjuk penilaian lain bagi kaedah sintesis data Sila rujuk teks penuh untuk butiran. Atas ialah kandungan terperinci Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!