Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik-AI-php.cn

Rumah

Peranti teknologi

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

PHPz

Mar 15, 2024 pm 12:07 PM

projek

Data sintetik terus membuka kunci potensi penaakulan matematik model besar!

Keupayaan menyelesaikan masalah matematik sentiasa dianggap sebagai penunjuk penting tahap kecerdasan model bahasa. Biasanya hanya model atau model yang sangat besar yang telah menjalani pra-latihan matematik yang meluas mempunyai peluang untuk berprestasi baik dalam masalah matematik.

Baru-baru ini, kerja penyelidikan Xwin yang dibuat oleh pasukan Swin-Transformer dan disiapkan bersama oleh sarjana dari Universiti Xi'an Jiaotong, Universiti Sains dan Teknologi China, Universiti Tsinghua dan Microsoft Research Asia telah mematahkan persepsi ini dan mendedahkan The 7B (iaitu 7 bilion parameter) model bahasa berskala (LLaMA-2-7B) di bawah pra-latihan am telah menunjukkan potensi yang kuat dalam menyelesaikan masalah matematik, dan boleh menggunakan kaedah penalaan halus diselia berdasarkan data sintetik untuk menjadikan model semakin banyak. cekap. Rangsangan mantap kebolehan matematik.

Kajian ini diterbitkan di arXiv, bertajuk "Model Bahasa 7B Biasa Sudah Memiliki Keupayaan Matematik yang Kuat".

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Pautan kertas: https://arxiv.org/pdf/2403.04706.pdf
Pautan kod: https://github.com/Xwin-LM/Xwin-LM

Pasukan penyelidik mula-mula menggunakan hanya 7.5K data untuk memperhalusi arahan model LLaMA-2-7B, dan kemudian menilai prestasi model dalam GSM8K dan MATH. Keputusan eksperimen menunjukkan bahawa apabila memilih jawapan terbaik daripada 256 jawapan yang dihasilkan untuk setiap soalan dalam set ujian, ketepatan ujian masing-masing boleh mencapai 97.7% dan 72.0% Keputusan ini menunjukkan bahawa walaupun di bawah pra-latihan umum, tahap 7B Penemuan bahawa walaupun model kecil mempunyai potensi untuk menjana jawapan berkualiti tinggi mencabar pandangan sebelumnya bahawa potensi untuk penaakulan matematik yang berkuasa tidak terhad kepada model pra-latihan berskala besar dan berkaitan dengan matematik.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Walau bagaimanapun, penyelidikan juga menunjukkan bahawa walaupun mempunyai potensi penaakulan matematik yang kuat, masalah utama model bahasa semasa ialah sukar untuk secara konsisten merangsang keupayaan matematik yang wujud. Sebagai contoh, jika hanya satu jawapan yang dijana bagi setiap soalan dipertimbangkan dalam percubaan sebelumnya, ketepatan pada penanda aras GSM8K dan MATH akan turun kepada 49.5% dan 7.9%, masing-masing. Ini mencerminkan ketidakstabilan keupayaan matematik model. Untuk menyelesaikan masalah ini, pasukan penyelidik menggunakan kaedah mengembangkan set data penalaan halus yang diselia (SFT) dan mendapati bahawa dengan peningkatan data SFT, kebolehpercayaan model dalam menjana jawapan yang betul telah bertambah baik dengan ketara.

Kajian itu juga menyebut bahawa dengan menggunakan data sintetik, set data SFT boleh diperbesarkan dengan berkesan, dan kaedah ini hampir sama berkesan dengan data sebenar. Pasukan penyelidik menggunakan API Turbo GPT-4 untuk menjana soalan matematik sintetik dan proses penyelesaian masalah, dan memastikan kualiti soalan melalui kata gesaan pengesahan mudah. Melalui kaedah ini, pasukan itu berjaya mengembangkan set data SFT daripada 7.5K kepada kira-kira satu juta sampel, mencapai undang-undang penskalaan yang hampir sempurna. Model Xwin-Math-7B yang dihasilkan masing-masing mencapai ketepatan 82.6% dan 40.6% pada GSM8K dan MATH, dengan ketara mengatasi model SOTA sebelumnya malah mengatasi beberapa model 70B, mencapai peningkatan lonjakan. Model Xwin-Math-70B mencapai keputusan 52.8% pada set penilaian MATH, dengan ketara mengatasi versi awal GPT-4. Ini adalah kali pertama penyelidikan berdasarkan siri LLaMA model asas telah mengatasi GPT-4 pada MATH.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Para penyelidik juga mentakrifkan penunjuk penilaian Pass@N dan PassRatio@N, berhasrat untuk menilai sama ada model boleh mengeluarkan jawapan yang betul (menunjukkan potensi keupayaan matematik model) dan perkadaran jawapan yang betul antara N keluaran model Skala (menunjukkan kestabilan keupayaan matematik model). Apabila jumlah data SFT adalah kecil, Pass@256 model sudah sangat tinggi Selepas mengembangkan lagi skala data SFT, Pass@256 model meningkat dengan sangat sedikit, manakala PassRatio@256 meningkat dengan ketara. Ini menunjukkan bahawa penalaan halus diselia berdasarkan data sintetik adalah cara yang berkesan untuk meningkatkan kestabilan keupayaan matematik model.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Selain itu, kajian ini memberikan cerapan tentang tingkah laku penskalaan di bawah kerumitan penaakulan dan jenis ralat yang berbeza. Sebagai contoh, apabila saiz set data SFT bertambah, ketepatan model dalam menyelesaikan masalah matematik mengikuti perhubungan undang-undang kuasa dengan bilangan langkah inferens. Dengan meningkatkan perkadaran langkah inferens panjang dalam sampel latihan, ketepatan model dalam menyelesaikan masalah sukar boleh dipertingkatkan dengan ketara. Pada masa yang sama, kajian juga mendapati bahawa kesilapan pengiraan lebih mudah dikurangkan daripada kesilapan penaakulan.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Dalam Peperiksaan Matematik Sekolah Menengah Hungary, yang menyatakan keupayaan generalisasi penaakulan matematik model, Xwin-Math juga mendapat markah 65%, kedua selepas GPT-4. Ini menunjukkan bahawa cara data disintesis dalam kajian tidak terlalu sesuai dengan set penilaian dan menunjukkan keupayaan generalisasi yang baik.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Kajian ini bukan sahaja menunjukkan keberkesanan data sintetik dalam mengembangkan data SFT, tetapi juga memberikan perspektif baharu tentang penyelidikan model bahasa besar dalam keupayaan penaakulan matematik. Pasukan penyelidik menyatakan bahawa kerja mereka meletakkan asas untuk penerokaan dan kemajuan masa depan dalam bidang ini, dan berharap untuk mempromosikan kecerdasan buatan untuk mencapai kejayaan yang lebih besar dalam menyelesaikan masalah matematik. Dengan kemajuan berterusan teknologi kecerdasan buatan, kami mempunyai sebab untuk menjangkakan bahawa AI akan menunjukkan prestasi yang lebih baik dalam bidang matematik dan memberikan lebih banyak bantuan kepada manusia untuk menyelesaikan masalah matematik yang kompleks.

Artikel ini juga merangkumi keputusan eksperimen ablasi dan penunjuk penilaian lain bagi kaedah sintesis data Sila rujuk teks penuh untuk butiran.

Atas ialah kandungan terperinci Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Skop Gemma: Mikroskop Google ' s untuk mengintip ke proses pemikiran AI 'Apr 17, 2025 am 11:55 AM

Meneroka kerja -kerja dalam model bahasa dengan skop Gemma Memahami kerumitan model bahasa AI adalah satu cabaran penting. Pelepasan Google Gemma Skop, Toolkit Komprehensif, menawarkan penyelidik cara yang kuat untuk menyelidiki

Siapa penganalisis perisikan perniagaan dan bagaimana menjadi satu?Apr 17, 2025 am 11:44 AM

Membuka Kejayaan Perniagaan: Panduan untuk Menjadi Penganalisis Perisikan Perniagaan Bayangkan mengubah data mentah ke dalam pandangan yang boleh dilakukan yang mendorong pertumbuhan organisasi. Ini adalah kuasa penganalisis Perniagaan Perniagaan (BI) - peranan penting dalam GU

Bagaimana untuk menambah lajur dalam SQL? - Analytics VidhyaApr 17, 2025 am 11:43 AM

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Penganalisis Perniagaan vs Penganalisis DataApr 17, 2025 am 11:38 AM

Pengenalan Bayangkan pejabat yang sibuk di mana dua profesional bekerjasama dalam projek kritikal. Penganalisis perniagaan memberi tumpuan kepada objektif syarikat, mengenal pasti bidang penambahbaikan, dan memastikan penjajaran strategik dengan trend pasaran. Simu

Apakah Count dan Counta dalam Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Pengiraan dan Analisis Data Excel: Penjelasan terperinci mengenai fungsi Count dan Counta Pengiraan dan analisis data yang tepat adalah kritikal dalam Excel, terutamanya apabila bekerja dengan set data yang besar. Excel menyediakan pelbagai fungsi untuk mencapai matlamat ini, dengan fungsi Count dan CountA menjadi alat utama untuk mengira bilangan sel di bawah keadaan yang berbeza. Walaupun kedua -dua fungsi digunakan untuk mengira sel, sasaran reka bentuk mereka disasarkan pada jenis data yang berbeza. Mari menggali butiran khusus fungsi Count dan Counta, menyerlahkan ciri dan perbezaan unik mereka, dan belajar cara menerapkannya dalam analisis data. Gambaran keseluruhan perkara utama Memahami kiraan dan cou

Chrome ada di sini dengan AI: mengalami sesuatu yang baru setiap hari !!Apr 17, 2025 am 11:29 AM

Revolusi AI Google Chrome: Pengalaman melayari yang diperibadikan dan cekap Kecerdasan Buatan (AI) dengan cepat mengubah kehidupan seharian kita, dan Google Chrome mengetuai pertuduhan di arena pelayaran web. Artikel ini meneroka exciti

Sisi Manusia Ai ' s: Kesejahteraan dan garis bawah empat kali gandaApr 17, 2025 am 11:28 AM

Impak Reimagining: garis bawah empat kali ganda Selama terlalu lama, perbualan telah dikuasai oleh pandangan sempit kesan AI, terutama memberi tumpuan kepada keuntungan bawah. Walau bagaimanapun, pendekatan yang lebih holistik mengiktiraf kesalinghubungan BU

5 Kes Pengkomputeran Kuantum Mengubah Permainan Yang Harus Anda KetahuiApr 17, 2025 am 11:24 AM

Perkara bergerak terus ke arah itu. Pelaburan yang dicurahkan ke dalam penyedia perkhidmatan kuantum dan permulaan menunjukkan bahawa industri memahami kepentingannya. Dan semakin banyak kes penggunaan dunia nyata muncul untuk menunjukkan nilainya

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7542

Tutorial CakePHP

1381

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi