Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.
Dalam beberapa tahun kebelakangan ini, model bahasa besar (LLM) telah mencapai kemajuan besar dalam tugasan seperti masalah aplikasi matematik dan pembuktian teorem matematik. Penaakulan matematik memerlukan proses penaakulan pelbagai langkah yang ketat dan formal dan oleh itu merupakan peristiwa penting dalam kemajuan keupayaan penaakulan LLM, tetapi ia masih menghadapi cabaran penting. Kerja penyelidikan terdahulu, seperti Chain of Thoughts (CoT), mendedahkan keberkesanan langkah perantaraanbimbingan. Walau bagaimanapun, menganotasi langkah perantaraan sedemikian secara manual memerlukan banyak tenaga kerja dan kos masa, dan data yang disintesis secara automatik juga terdedah kepada masalah dalam ketepatan dan kebolehbacaan manusia. Dalam artikel ini, penyelidik dari City University of Hong Kong, Sun Yat-sen University, Huawei Noah's Ark Laboratory dan institusi lain mencadangkan rangka kerja sintesis data penaakulan matematik bersatuMUSTARD, yang boleh menjana sejumlah besar yang betul dan manusia Data penaakulan matematik berkualiti tinggi yang boleh dibaca dan difahami.
- Tajuk kertas: MUSTARD: Menguasai Sintesis Seragam Teorem dan Data Bukti
- Pautan kertas: https://openreview.net/forum?id=8xliOUg9EW
- pautan // /github.com/Eleanor-H/MUSTARD
- Pautan set data: https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view
halaman utama pengarang- - h.github.io/
Rangka kerja sintesis data berkualiti tinggi menggunakan prover formal1 rangka kerja MUSTARD terdiri daripada tiga fasa:
Pha
Pemerolehan konsep
: Pertama, perpustakaan konsep matematik ditakrifkan dan diwujudkan, meliputi konsep dalam empat peringkat pendidikan sekolah rendah, sekolah menengah rendah, sekolah menengah dan pendidikan tinggi Setiap peringkat pendidikan mempunyai 5 hingga 9 bidang matematik, meliputi pelbagai jenis masalah matematik seperti sebagai algebra dan geometri. Setiap kawasan mengandungi pecahan konsep matematik, seperti operasi polinomial atau pemfaktoran. Kemudian satu atau lebih konsep matematik diekstrak daripada perpustakaan konsep matematik sebagai benih untuk menentukan kategori soalan yang dihasilkan. Peringkat kedua,
penjanaan data
: Mendorong model bahasa besar untuk menjana masalah matematik dan proses penyelesaian pelbagai langkah berdasarkan konsep matematik. Secara khusus, MUSTARD memanfaatkan keupayaan model bahasa besar untuk menjana bahasa dan kod semula jadi, mendorong model bahasa besar untuk menyelesaikan tiga tugas: (T1) Menjana masalah matematik yang berkaitan dengan konsep yang diberikan (T2) Memberi penyelesaian kepada masalah dalam bahasa semula jadi; (T3) Pemformalisasi automatik, menukar penyelesaian bahasa semula jadi kepada penyelesaian formal Lean 3. Peringkat ketiga,
Pengesahan rasmi
: Gunakan pengesahan prover teorem formal interaktif untuk menapis proses penyelesaian yang tepat. Selepas MUSTARD menyampaikan penyelesaian rasmi Lean 3 kepada pengesah formal Lean, jika prover teorem tidak mengembalikan maklumat ralat, data yang sepadan akan dikumpulkan ke dalam set yang sah. Jika tidak, MUSTARD mengumpul mesej ralat daripada prover teorem dan menggesa model bahasa untuk mengubah suai penyelesaian formal. MUSTARD melakukan beberapa pusingan pengesahan dan pembetulan diri sehingga penyelesaian rasmi yang sah diperolehi. Rangka kerja MUSTARD terdiri daripada tiga peringkat: pengumpulan konsep, penjanaan data dan pengesahan rasmi.Penilaian manusia terhadap kualiti dataUntuk meneroka kualiti data yang dijana oleh MUSTARD, pasukan penyelidik meminta profesional yang menguasai bahasa matematik dan Lean yang berkualiti. pada data. Mereka memilih 200 item secara rawak daripada data yang dijana, yang mana 100 item melepasi pengesahan teorem Lean prover (kumpulan sah) dan 100 item tidak melepasi pengesahan (kumpulan tidak sah). Semakan kualiti meliputi empat bahagian setiap bahagian data (iaitu, huraian masalah bahasa semula jadi, penyelesaian bahasa semula jadi, huraian masalah formal dan penyelesaian formal), termasuk pemeriksaan untuk ketepatan dan ketekalan. Khususnya, data berkualiti tinggi harus mempunyai huraian masalah bahasa semula jadi yang betul (D1) dan penyelesaian masalah yang betul (D4). Huraian dan penyelesaian masalah formal hendaklah konsisten dengan huraian dan penyelesaian masalah bahasa semula jadi (D5, D6). Di samping itu, data hendaklah mematuhi konsep matematik yang ditentukan (D2) dan jenis masalah (D3). Jadual 3 menunjukkan enam dimensi dan keperluan pemeriksaan ini. Jika data memenuhi keperluan, ia mendapat skor 1 dalam dimensi, jika tidak, ia mendapat skor 0.
Jadual 3 menunjukkan ketepatan dan nilai p yang sepadan bagi kumpulan berkesan dan kumpulan tidak sah dalam setiap dimensi. Perbezaan ketara antara (D1) dan (D4) menggambarkan ketepatan soalan dan jawapan yang dijana oleh MUSTARD. Perbezaan ketara dalam (D6) menunjukkan ketekalan yang tinggi antara huraian bahasa semula jadi dan huraian formal data yang dihasilkan.
Keberkesanan data pada keupayaan penaakulan matematik modelUntuk menilai kesan MUSTARDSAUCE dalam meningkatkan keupayaan penaakulan matematik, pasukan penyelidik menggunakan data ini dengan skala yang lebih halus. model dan dilakukan Ia dinilai pada Masalah Kata Matematik (MWP) dan Pembuktian Teorem Automatik (ATP). Artikel ini membandingkan keberkesanan data gabungan berikut bagi set data MUSTARDSAUCE:
-
MUSTARDSAUCE-sah: 5866 keping data yang disahkan oleh prover rasmi Lean
ke MUSTARDSAUCE; 5866 keping data disahkan oleh prover rasmi; MUSTARDSAUCE-rawak: 5866 keping data rawak;
Pasukan penyelidik menggunakan LoRA [1] untuk memperhalusi sumber terbuka GPT2-large [2], Llama 2-7B dan Llama 2-70B [3] pada setiap data gabungan. Untuk tugasan masalah perkataan matematik, mereka menggunakan set data GSM8K [4] dan MATH [5][6] untuk penilaian. Apabila menilai pembuktian teorem automatik, pasukan penyelidik menggunakan tanda aras Mathlib [8] dan miniF2F [7]. Tambahan pula, mereka juga dinilai pada ujian MUSTARDSAUCE.
Secara amnya, penalaan halus model pada MUSTARDSAUCE meningkatkan keupayaan penaakulan matematik model. Dalam pembuktian teorem automatik (Jadual 5 di bawah) dan penyelesaian masalah aplikasi matematik (Jadual 4 di bawah), menggunakan MUSTARDSAUCE-sah untuk penalaan halus berbanding dengan menggunakan rawak MUSTARDSAUCE untuk penalaan halus, prestasi relatif purata meningkat sebanyak 18.15% (Jadual 5 bawah) dan 11.01% % (Jadual 4 di bawah).
Untuk pembuktian teorem automatik, purata peningkatan prestasi Llama 2-7B yang ditala halus ialah 15.41%, dan purata peningkatan prestasi GPT 2-large yang ditala halus ialah 20.89%. Untuk menyelesaikan masalah aplikasi matematik, prestasi purata Llama 2-7B yang ditala halus dipertingkatkan sebanyak 8.18%, dan prestasi purata GPT 2-besar yang ditala halus dipertingkatkan sebanyak 15.41%. Di samping itu, walaupun model yang diperhalusi dengan MUSTARDSAUCE-tt mempunyai kelebihan mutlak dalam jumlah data yang diperhalusi, prestasinya tidak sebaik model yang diperhalusi dengan MUSTARDSAUCE-sah. Lagi keputusan untuk Llama 2-70B. Data MUSTARDSAUCE kekal sah apabila memperhalusi model bahasa yang lebih besar. Set data MUSTARDSAUCE
Artikel ini bersumberkan set data MUSTARDSAUCE. Setiap data mengandungi penerangan masalah dan penyelesaian berbilang langkah dalam bahasa semula jadi, serta penerangan masalah dan penyelesaian berbilang langkah dalam bahasa formal dwi Lean 3. Data MUSTARDSAUCE termasuk soalan aplikasi matematik dan soalan pembuktian teorem, meliputi tahap kesukaran dari sekolah rendah hingga pendidikan tinggi. Bilangan langkah penaakulan bagi soalan bertambah dengan kesukaran soalan. Soalan yang paling sukar memerlukan kira-kira 30 langkah untuk diselesaikan, dan kira-kira 20 taktik Lean 3.Muat turun set data: https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view Cabaran Pembentukan Maklumat Automatik
Penyelidikan Pasukan ini juga membuka satu pemformalan automatik (autoformalisasi) dan cabaran pemformalan automatik (autopemakluman) berdasarkan data dwi bahasa semula jadi dan bahasa formal Lean dalam set data MUSTARDSAUCE. Selain itu, pasukan penyelidik telah membuka dua landasan cabaran secara serentak: penjanaan teorem automatik dan penyelesaian masalah pengoptimuman automatik pembuktian serta kod dengan kod. Pertandingan ini bermula dari 3 April – 27 Mei 2024. Pasukan yang menang akan berpeluang menyertai bengkel ICML 2024 AI for Math pada 26 Julai di Vienna, Austria.
- Track 1-1 (pemformalkan automatik): https://www.codabench.org/competitions/2436/
- Track 1-2 (pemformalkan automatik): https: //www.codabench .org/competitions/2484/
- Track 2 (penjanaan teorem automatik dan bukti): https://www.codabench.org/competitions/2437/
- Track 3 (kod penyelesaian automatik pengoptimuman penyelidikan operasi masalah): https://www.codabench.org/competitions/2438/
[1] Edward J Hu, Phillip Wallis Shen , Phillip Wallis Shen . Zhu, Yuanzhi Li, Shean Wang, Lu Wang dan Weizhu Chen: Penyesuaian peringkat rendah bagi model bahasa besar arXiv arXiv:2106.09685, 2021.[2] Alec Radford. Model kanak-kanak, David Luan, Dario Amodei, Ilya Sutskever, et al ialah pelajar berbilang tugas tanpa pengawasan, 1 (8):9, 2019. , Peter Albert, Amjad Almahairi, Yasmine Babaei, Niko-lay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton-Ferrer, Moya Chen, Guillem Cucurull, David Esiobu , Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux , Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang , Aure ́lien Rodriguez, Robert Stojnic , Sergey Edunov, dan Thomas Scialom. .[4] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse dan John Schulman Pengesah Latihan kepada selesaikan masalah perkataan matematik menyelesaikan dengan set data MATH. Dalam Joaquin Vanschoren dan Sai-Kit Yeung (eds.), Prosiding Sistem Pemprosesan Maklumat Neural pada Set Data dan Penanda Aras 1, Set Data dan Penanda Aras NeurIPS 2021, Disember 2021 , maya, 2021. [6] Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, dan Karl Cobbe Mari sahkan langkah demi langkah arXiv . [7] Kunhao Zheng, Jesse Michael Han, dan Stanislas Polu. Acara, 25-29 April 2022. OpenReview.net, 2022.[8] https://github.com/leanprover-community/mathlibAtas ialah kandungan terperinci ICLR 2024 Spotlight |. Tidak perlu risau tentang langkah perantaraan, MUSTARD boleh menjana data inferens matematik berkualiti tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!
Kenyataan:Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn