Rumah >Peranti teknologi >AI >MIT mengeluarkan versi penyelesai 'Matematik Lanjutan' yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

MIT mengeluarkan versi penyelesai 'Matematik Lanjutan' yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan: 2023-04-12 16:04:101196semak imbas

Bukan sahaja menyelesaikan masalah perkataan matematik sekolah rendah, AI juga telah mula menakluk matematik lanjutan!

Baru-baru ini, penyelidik MIT mengumumkan bahawa berdasarkan model pra-latihan OpenAI Codex, mereka berjaya mencapai kadar ketepatan 81% pada masalah matematik peringkat sarjana muda melalui pembelajaran beberapa pukulan!

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Pautan kertas: https://arxiv.org/abs/2112.15594
Pautan kod: https://github.com/idrori /mathq

Mari kita lihat jawapan kepada beberapa soalan kecil, seperti mengira isipadu yang dijana dengan memutarkan graf fungsi pembolehubah tunggal di sekeliling paksi, mengira penarik Lorenz dan unjuran, mengira dan menggambarkan bentuk geometri penguraian nilai tunggal (SVD), bukan sahaja jawapan yang betul, tetapi juga penjelasan yang sepadan boleh diberikan!

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Sungguh sukar dipercayai, melepasi angka yang tinggi sentiasa dilalui Kini AI boleh memperoleh 81 mata dalam satu pukulan secara unilateral manusia.

Apa yang lebih hebat ialah selain menyelesaikan masalah yang sukar diselesaikan dengan model pembelajaran mesin biasa, penyelidikan ini juga menunjukkan bahawa teknologi ini boleh dipromosikan secara besar-besaran dan boleh menyelesaikan masalah dalam kursusnya dan kursus yang serupa.

Ini juga merupakan kali pertama dalam sejarah bahawa model pembelajaran mesin tunggal boleh menyelesaikan masalah matematik berskala besar itu, dan juga boleh menerangkan, merancang dan juga menjana soalan baharu!

Malah, kertas kerja ini diterbitkan seawal awal tahun Selepas setengah tahun disemak, panjangnya telah ditambah daripada 114 muka surat kepada 181 halaman dinomborkan terus dari A-Z Laman.

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Terdapat empat unit pengarang utama artikel iaitu MIT, Columbia University, Harvard University dan University of Waterloo.

Pengarang pertama Iddo Drori ialah pensyarah di Jabatan AI Jabatan Kejuruteraan Elektrik dan Sains Komputer di MIT dan profesor bersekutu tambahan di Sekolah Kejuruteraan dan Sains Gunaan di Columbia University. Memenangi Anugerah Kertas Terbaik CCAI NeurIPS 2021.

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Arah penyelidikan utamanya ialah pembelajaran mesin untuk pendidikan, yang cuba mendapatkan mesin untuk menyelesaikan, menerangkan dan menjana kursus matematik dan STEM peringkat kolej; , yang berdasarkan data Ribuan tahun data yang meramalkan perubahan iklim yang melampau dan memantau iklim, menyepadukan kerja pelbagai disiplin untuk meramalkan perubahan dalam biogeokimia lautan di Lautan Atlantik selama bertahun-tahun, algoritma pembelajaran mesin untuk pemanduan autonomi, dan banyak lagi;

Beliau juga merupakan pengarang The Science of Deep Learning yang diterbitkan oleh Cambridge University Press.

Pencapaian dalam Pendidikan Tinggi

Sebelum kertas kerja ini, kebanyakan penyelidik percaya bahawa rangkaian saraf tidak dapat menangani masalah nombor tinggi dan hanya boleh menyelesaikan beberapa masalah matematik yang mudah.

Walaupun model Transformer mengatasi prestasi manusia dalam pelbagai tugasan NLP, ia masih tidak buruk dalam menyelesaikan masalah matematik Sebab utama adalah kerana pelbagai model besar seperti GPT-3 hanya berfungsi pada data teks -latihan pada.

Kemudian, beberapa penyelidik mendapati bahawa model bahasa masih boleh dibimbing untuk menaakul dan menjawab beberapa soalan matematik mudah melalui analisis langkah demi langkah (rantai pemikiran), tetapi masalah matematik lanjutan tidak begitu mudah untuk diselesaikan .

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Apabila sasaran adalah masalah nombor tinggi, anda mesti terlebih dahulu mengumpul gelombang data latihan.

Pengarang memilih 25 masalah secara rawak daripada setiap tujuh kursus di MIT, termasuk:

18.01 Kalkulus Pembolehubah Tunggal
18.02 Kamiran Kalkulus Pelbagai Pembolehubah
18.03 Persamaan Pembezaan
18.05 Pengenalan kepada Kebarangkalian dan Statistik
18.06 Algebra Linear
6.042 Sains Komputer Matematik
Universiti Kompaun COLUMBIA 3🎜>

Untuk set data MATH, penyelidik memilih 15 soalan secara rawak daripada enam topik set data (Algebra, Pengiraan dan Kebarangkalian, Algebra Pertengahan, Teori Nombor, Pra-Algebra dan Pra-Algebra) .

Untuk mengesahkan bahawa hasil yang dijana oleh model tidak terlalu sesuai dengan data latihan, penyelidik memilih kursus COMS3251 yang belum diterbitkan di Internet untuk mengesahkan hasil yang dijana.

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Aliran Kerja

Model mengambil soalan kursus sebagai input, kemudian melakukan pembesaran automatik dengan konteks di atasnya, menghasilkan atur cara yang disintesis dan akhirnya mengeluarkan jawapan dan penjelasan yang dijana.

Untuk soalan yang berbeza, hasil keluaran mungkin berbeza Contohnya, jawapan kepada 18.01 ialah persamaan, jawapan kepada 18.02 ialah nilai Boolean, jawapan kepada 18.03 dan 18.06 ialah graf atau vektor, dan jawapan kepada 18.05 ialah nilai berangka.

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Apabila anda mendapat soalan, langkah pertama ialah membenarkan model mencari konteks soalan yang berkaitan. Para penyelidik memberi tumpuan terutamanya pada program Python yang dihasilkan oleh Codex, jadi mereka menambah teks "tulis program" sebelum soalan dan meletakkan teks dalam tiga tanda petikan program Python, berpura-pura menjadi docstring dalam program.

Selepas menjana atur cara, gesaan Codex diperlukan untuk menentukan perpustakaan mana yang hendak diimport Pengarang memilih untuk menambah rentetan "use sympy" sebelum soalan sebagai konteks, menyatakan bahawa atur cara yang disintesis untuk menyelesaikan masalah harus gunakan pakej ini.

Dengan mengira pakej pengaturcaraan Python yang digunakan oleh setiap kursus, anda boleh melihat bahawa semua kursus menggunakan NumPy dan Sympy. Matplotlib hanya digunakan dalam kursus dengan masalah yang memerlukan perancangan. Kira-kira separuh daripada kursus menggunakan matematik, rawak dan SciPy. Semasa operasi sebenar, penyelidik hanya menetapkan SymPy atau pakej berkaitan lukisan untuk diimport, dan pakej import lain disintesis secara automatik.

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Menggunakan pembelajaran Zero-shot, iaitu, 71% daripada masalah boleh diselesaikan secara automatik dengan hanya menggunakan peningkatan automatik pada masalah asal.

Jika masalah tidak diselesaikan, penyelidik cuba menggunakan pembelajaran beberapa pukulan untuk menyelesaikan masalah tersebut.

Mula-mula gunakan enjin pembenaman text-similarity-babbag-001 OpenAI untuk mendapatkan pembenaman dimensi 2048 bagi semua masalah, dan kemudian gunakan pengiraan persamaan kosinus pada semua vektor untuk mencari masalah yang tidak dapat diselesaikan yang paling serupa dengan yang diselesaikan soalan masalah. Akhir sekali, masalah yang paling serupa dan kod yang sepadan digunakan sebagai contoh beberapa gambar masalah baharu.

Jika kod yang dijana tidak mengeluarkan jawapan yang betul, tambahkan satu lagi pasangan kod soalan yang diselesaikan, setiap kali menggunakan soalan selesai yang serupa yang seterusnya.

Dalam amalan, boleh didapati bahawa menggunakan sehingga 5 contoh untuk pembelajaran beberapa pukulan mempunyai kesan terbaik, dan jumlah bilangan masalah yang boleh diselesaikan secara automatik meningkat daripada 71% pembelajaran sifar pukulan kepada 81% daripada pembelajaran beberapa pukulan .

Untuk menyelesaikan baki 19% masalah, penyunting manusia dikehendaki campur tangan.

Penyelidik mula-mula mengumpul semua soalan dan mendapati bahawa kebanyakannya adalah samar-samar atau mengandungi maklumat yang berlebihan, seperti rujukan kepada watak filem atau peristiwa semasa, dsb. Soalan-soalan itu perlu diselesaikan untuk mengeluarkan intipati soalan-soalan.

Pengisihan masalah terutamanya melibatkan mengalih keluar maklumat yang berlebihan, memecahkan struktur ayat yang panjang kepada komponen yang lebih kecil dan menukar gesaan kepada format pengaturcaraan.

Situasi lain yang memerlukan campur tangan manual ialah jawapan kepada soalan memerlukan beberapa langkah lukisan untuk dijelaskan, iaitu Codex perlu digesa secara interaktif sehingga kesan visualisasi yang dikehendaki dicapai.

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Selain menjana jawapan, model itu juga harus dapat menjelaskan sebab-sebab jawapan tersebut sedang melakukan: 1." Model menjana hasil yang dijelaskan langkah demi langkah.

Selepas anda boleh menjawab soalan, langkah seterusnya ialah menggunakan Codex untuk menjana soalan baharu bagi setiap kursus.

Penyelidik mencipta senarai soalan bernombor yang ditulis oleh pelajar dalam setiap kelas Senarai ini dipotong selepas bilangan soalan rawak, dan hasilnya digunakan untuk menggesa Codex menjana soalan seterusnya.

Proses ini diulang sehingga cukup soalan baharu dicipta untuk setiap kursus.

Untuk menilai soalan yang dijana, penyelidik meninjau pelajar MIT yang telah mengikuti kursus ini atau yang setaraf dengannya untuk membandingkan kualiti dan kesukaran soalan yang dihasilkan oleh mesin dengan kursus asal.

MIT mengeluarkan versi penyelesai Matematik Lanjutan yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus

Daripada hasil tinjauan pelajar dapat kita lihat:

Kualiti pemarkahan mesin sudah setanding dengan soalan manusia;
Dari segi kesukaran, soalan manusia lebih sesuai sebagai soalan kursus, manakala keputusan yang dihasilkan oleh mesin adalah lebih sukar sedikit. Beberapa;
Lebih separuh daripada soalan kursus boleh dilihat oleh pelajar sebagai dihasilkan oleh model, dan yang paling hampir dengan manusia ialah kursus 18.01

Maklumat Rujukan:

https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only/

Atas ialah kandungan terperinci MIT mengeluarkan versi penyelesai 'Matematik Lanjutan' yang dipertingkat: kadar ketepatan mencapai 81% dalam 7 kursus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：ChatGPT sangat popular, dan panduan kejuruteraan segera yang paling komprehensif terdapat pada senarai hangat GitHub, dengan 4.7k bintang!Artikel seterusnya：ChatGPT sangat popular, dan panduan kejuruteraan segera yang paling komprehensif terdapat pada senarai hangat GitHub, dengan 4.7k bintang!

Artikel berkaitan

Lihat lagi