AI sekali lagi terlibat dalam dunia matematik, dan kaedah DSP baharu menggandakan kadar kejayaan bukti mesin-AI-php.cn

Rumah

Peranti teknologi

AI sekali lagi terlibat dalam dunia matematik, dan kaedah DSP baharu menggandakan kadar kejayaan bukti mesin

PHPz

May 13, 2023 pm 01:43 PM

Googleai

Teorem matematik yang membuktikan secara automatik ialah niat asal kecerdasan buatan dan sentiasa menjadi masalah yang sukar. Setakat ini, ahli matematik manusia telah menggunakan dua cara yang berbeza untuk menulis matematik.

Pertama ialah kaedah yang biasa digunakan oleh semua orang, iaitu menggunakan bahasa semula jadi untuk menerangkan pembuktian matematik. Kebanyakan matematik ditulis dengan cara ini, termasuk buku teks matematik, kertas matematik, dsb.

Jenis kedua dipanggil matematik formal. Ini adalah alat yang dicipta oleh saintis komputer sejak setengah abad yang lalu untuk menyemak bukti matematik.

Nampaknya hari ini komputer boleh digunakan untuk mengesahkan bukti matematik, tetapi mereka hanya boleh melakukannya menggunakan bahasa bukti direka khas yang tidak boleh mengendalikan simbol matematik dan campuran teks bertulis yang digunakan oleh ahli matematik. Menukar masalah matematik yang ditulis dalam bahasa semula jadi kepada kod formal supaya komputer lebih mudah menyelesaikannya boleh membantu membina mesin yang boleh meneroka penemuan baharu dalam matematik. Proses ini dipanggil pemformalisasi, dan autoformalisasi merujuk kepada tugas menterjemah secara automatik matematik daripada bahasa semula jadi ke dalam bahasa formal.

Mengautomasi pembuktian formal ialah tugas yang mencabar, dan kaedah pembelajaran mendalam masih belum mencapai kejayaan besar dalam bidang ini, terutamanya disebabkan oleh kekurangan data formal. Malah, pembuktian rasmi itu sendiri sangat sukar dan hanya beberapa pakar yang boleh melakukannya, yang menjadikan usaha anotasi berskala besar tidak realistik. Korpus pembuktian rasmi terbesar ditulis dalam kod Isabelle (Paulson, 1994) dan bersaiz kurang daripada 0.6GB, susunan magnitud lebih kecil daripada set data yang biasa digunakan dalam penglihatan atau pemprosesan bahasa semula jadi. Untuk menangani kekurangan bukti formal, kajian terdahulu telah mencadangkan menggunakan data sintetik, pembelajaran penyeliaan sendiri atau pengukuhan untuk mensintesis data latihan formal tambahan. Walaupun kaedah ini mengurangkan kekurangan data pada tahap tertentu, kaedah ini tidak dapat menggunakan sepenuhnya pembuktian matematik yang ditulis secara manual.

Mari kita ambil model bahasa Minerva sebagai contoh. Selepas latihan dengan data yang mencukupi, kami mendapati bahawa keupayaan matematiknya sangat kuat dan ia boleh mendapat markah yang lebih tinggi daripada purata dalam ujian matematik sekolah menengah. Walau bagaimanapun, model bahasa sebegini juga mempunyai kekurangan Ia hanya boleh meniru, tetapi tidak boleh melatih secara bebas untuk meningkatkan matematik. Sistem bukti formal menyediakan persekitaran latihan, tetapi terdapat sangat sedikit data untuk matematik formal.

Tidak seperti matematik formal, data matematik tidak formal banyak dan tersedia secara meluas. Baru-baru ini, model bahasa besar yang dilatih pada data matematik tidak formal telah menunjukkan keupayaan penaakulan kuantitatif yang mengagumkan. Walau bagaimanapun, mereka sering menghasilkan bukti yang salah, dan secara automatik mengesan alasan yang salah dalam bukti ini adalah mencabar.

Dalam karya baru-baru ini, penyelidik seperti Yuhuai Tony Wu daripada Google telah mereka kaedah baharu yang dipanggil DSP (Draf, Lakar dan Buktikan). kedua-dua ketegasan logik yang disediakan oleh sistem formal dan sejumlah besar data tidak formal.

AI sekali lagi terlibat dalam dunia matematik, dan kaedah DSP baharu menggandakan kadar kejayaan bukti mesin

Pautan kertas: https://arxiv.org/pdf/2210.12283.pdf

Awal tahun ini, Wu Yuhuai dan beberapa rakan usaha sama menggunakan rangkaian saraf OpenAI Codex untuk melaksanakan kerja pemformalkan automatik, menunjukkan bahawa model bahasa yang besar boleh digunakan untuk menterjemah kenyataan tidak formal secara automatik kepada Kebolehlaksanaan kenyataan rasmi. DSP melangkah lebih jauh, menggunakan model bahasa yang besar untuk menghasilkan lakaran bukti formal daripada bukti tidak formal. Lakaran bukti terdiri daripada langkah-langkah penaakulan aras tinggi yang boleh ditafsirkan oleh sistem formal seperti prover teorem interaktif. Ia berbeza daripada bukti rasmi yang lengkap kerana ia mengandungi urutan sangkaan pertengahan yang tidak wajar. Dalam langkah terakhir DSP, lakaran bukti formal dihuraikan menjadi bukti rasmi yang lengkap, menggunakan pengesah automatik untuk membuktikan semua sangkaan pertengahan.

Wu Yuhuai berkata: Sekarang, kami telah menunjukkan bahawa LLM boleh menukar bukti tidak rasmi yang dijananya kepada bukti rasmi yang disahkan!

AI sekali lagi terlibat dalam dunia matematik, dan kaedah DSP baharu menggandakan kadar kejayaan bukti mesin

Kaedah

Bahagian Kaedah menerangkan kaedah DSP untuk automasi bukti formal, yang menggunakan pembuktian tidak formal untuk membimbing pembuktian teorem rasmi automatik Lakaran bukti peranti. Diandaikan di sini bahawa setiap masalah mempunyai proposisi tidak formal dan proposisi formal yang menerangkan masalah tersebut. Saluran paip keseluruhan terdiri daripada tiga peringkat (ditunjukkan dalam Rajah 1).

AI sekali lagi terlibat dalam dunia matematik, dan kaedah DSP baharu menggandakan kadar kejayaan bukti mesin

Rajah 1.

Bukti tidak rasmi Peringkat permulaan merangka pendekatan

DSP melibatkan mencari bukti tidak formal bagi masalah berdasarkan penerangannya dalam bahasa matematik semula jadi (mungkin menggunakan LATEX). Bukti tidak rasmi yang terhasil dianggap sebagai draf kasar untuk peringkat seterusnya. Dalam buku teks matematik, bukti teorem biasanya disediakan, tetapi kadangkala ia hilang atau tidak lengkap. Oleh itu, penyelidik mempertimbangkan dua situasi yang sepadan dengan kehadiran atau ketiadaan bukti tidak rasmi.

Dalam kes pertama, penyelidik mengandaikan bahawa terdapat bukti tidak formal "sebenar" (iaitu, bukti yang ditulis oleh manusia), yang merupakan amalan formal teori matematik sedia ada. situasi tipikal. Dalam kes kedua, penyelidik membuat andaian yang lebih umum bahawa tiada bukti tidak formal sebenar diberikan, dan menggunakan model bahasa besar yang dilatih pada data matematik tidak formal untuk merangka calon bukti. Model bahasa menghapuskan pergantungan pada bukti manusia dan boleh menjana pelbagai penyelesaian alternatif untuk setiap masalah. Walaupun tiada cara mudah untuk mengesahkan ketepatan bukti ini secara automatik, bukti tidak formal hanya perlu berguna pada peringkat seterusnya dalam menghasilkan lakaran bukti formal yang baik.

Peta bukti tidak rasmi ke dalam lakaran formal

Lakaran bukti rasmi mengekod struktur penyelesaian dan mengetepikan butiran peringkat rendah. Secara intuitif, ia adalah bukti separa yang menggariskan pernyataan tekaan peringkat tinggi. Rajah 2 ialah contoh konkrit lakaran bukti. Walaupun pembuktian tidak formal sering mengetepikan butiran peringkat rendah, butiran ini tidak boleh dikecualikan dalam pembuktian formal, menjadikan penukaran langsung bukti tidak rasmi kepada bukti formal sukar. Sebaliknya, kertas kerja ini mencadangkan pemetaan bukti tidak formal pada lakaran bukti rasmi yang berkongsi struktur aras tinggi yang sama. Butiran peringkat rendah yang hilang daripada lakaran bukti boleh diisi oleh prover automatik. Memandangkan korpora selari tidak formal-formal besar tidak wujud, kaedah terjemahan mesin standard tidak sesuai untuk tugas ini. Sebaliknya, keupayaan pembelajaran beberapa pukulan model bahasa yang besar digunakan di sini. Khususnya, beberapa pasangan contoh yang mengandungi bukti tidak rasmi dan lakaran rasmi yang sepadan digunakan untuk menggesa model, diikuti dengan bukti tidak rasmi untuk ditukar, dan kemudian biarkan model menjana token seterusnya untuk mendapatkan lakaran formal yang diperlukan. Model ini dipanggil "pemformal automatik".

AI sekali lagi terlibat dalam dunia matematik, dan kaedah DSP baharu menggandakan kadar kejayaan bukti mesin

Rajah 2.

Bukti pendedahan dalam lakaran Konjektur

Sebagai bahagian akhir proses ini, penyelidik melaksanakan prover automatik di luar rak untuk mengisi butiran yang hilang dalam lakaran bukti Istilah "prover automatik" di sini merujuk kepada keupayaan untuk menghasilkan bukti yang boleh disahkan secara rasmi. Rangka kerja adalah agnostik kepada pilihan khusus prover automatik: ia boleh menjadi prover simbolik (seperti alat automasi bukti heuristik), prover berasaskan rangkaian saraf, atau pendekatan hibrid. Jika prover automatik berjaya mengisi semua jurang dalam lakaran bukti, ia mengembalikan bukti rasmi akhir yang boleh disemak berdasarkan spesifikasi masalah. Jika prover automatik gagal (contohnya, ia melebihi had masa yang diperuntukkan), penilaian dianggap tidak berjaya.

Eksperimen

Para penyelidik menjalankan satu siri eksperimen, termasuk bukti formal masalah yang dijana daripada set data miniF2F, dan menunjukkan bahawa sebahagian besar teorem boleh dibuktikan secara automatik menggunakan kaedah ini. Dua persekitaran dikaji di sini, di mana bukti tidak formal ditulis oleh manusia atau dirangka oleh model bahasa besar yang dilatih pada teks matematik. Kedua-dua tetapan ini sesuai dengan situasi yang sering berlaku dalam pemformalkan teori yang sedia ada, iaitu, selalunya terdapat bukti tidak rasmi, tetapi ia kadang-kadang dibiarkan sebagai latihan kepada pembaca, atau hilang kerana kekangan di pinggir.

Jadual 1 menunjukkan bahagian bukti rasmi yang berjaya ditemui pada set data miniF2F. Hasilnya termasuk empat garis dasar daripada eksperimen kami, serta kaedah DSP dengan bukti tulisan manusia dan bukti yang dijana model.

AI sekali lagi terlibat dalam dunia matematik, dan kaedah DSP baharu menggandakan kadar kejayaan bukti mesin

Ia boleh dilihat bahawa prover automatik dengan 11 strategi heuristik telah banyak meningkatkan prestasi Sledgehammer kadar kejayaan daripada 9.9% kepada 18.0% pada set pengesahan dan daripada 10.4% kepada 20.9% pada set ujian. Dua garis dasar menggunakan model bahasa dan carian bukti mencapai kadar kejayaan masing-masing sebanyak 29.9% dan 35.2% pada set ujian miniF2F.

Berdasarkan bukti tidak rasmi yang ditulis oleh manusia, pendekatan DSP mencapai kadar kejayaan 42.6% dan 39.3% pada set pengesahan dan ujian miniF2F. Sebanyak 200 daripada 488 masalah boleh dibuktikan dengan cara ini. Model Codex dan model Minerva (8B) memberikan hasil yang hampir sama apabila menyelesaikan masalah pada miniF2F: kedua-duanya membimbing pengesah automatik untuk menyelesaikan 40.6% dan 35.3% masalah pada set pengesahan dan ujian masing-masing.

Apabila bertukar kepada model Minerva (62B), kadar kejayaan meningkat masing-masing kepada 43.9% dan 37.7%. Berbanding dengan bukti tidak rasmi yang ditulis manusia, kadar kejayaannya adalah 1.3% lebih tinggi pada set pengesahan dan 1.6% lebih rendah pada set ujian. Secara keseluruhan, model Minerva (62B) dapat menyelesaikan 199 masalah pada miniF2F, satu kurang daripada bukti bertulis manusia. Model Minerva (540B) menyelesaikan 42.6% dan 38.9% masalah dalam set pengesahan dan set ujian miniF2F, masing-masing, dan juga menghasilkan 199 bukti yang berjaya.

Kaedah DSP membimbing pembukti automatik secara berkesan dalam kedua-dua kes: pembuktian tidak formal menggunakan manusia atau pembuktian tidak formal yang dihasilkan oleh model bahasa. DSP hampir menggandakan kadar kejayaan prover dan menghasilkan prestasi SOTA pada miniF2F menggunakan Isabelle. Tambahan pula, model Minerva yang lebih besar hampir sama membantu manusia dalam membimbing peribahasa rasmi automatik.

Seperti yang ditunjukkan dalam rajah di bawah, kaedah DSP meningkatkan prestasi Sledgehammer + heuristik prover dengan ketara (~20% -> ~40%), mencapai SOTA baharu pada miniF2F .

Minerva versi 62B dan 540B menjana bukti yang hampir serupa dengan bukti manusia.

AI sekali lagi terlibat dalam dunia matematik, dan kaedah DSP baharu menggandakan kadar kejayaan bukti mesin

Untuk maklumat lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci AI sekali lagi terlibat dalam dunia matematik, dan kaedah DSP baharu menggandakan kadar kejayaan bukti mesin. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Skop Gemma: Mikroskop Google ' s untuk mengintip ke proses pemikiran AI 'Apr 17, 2025 am 11:55 AM

Meneroka kerja -kerja dalam model bahasa dengan skop Gemma Memahami kerumitan model bahasa AI adalah satu cabaran penting. Pelepasan Google Gemma Skop, Toolkit Komprehensif, menawarkan penyelidik cara yang kuat untuk menyelidiki

Siapa penganalisis perisikan perniagaan dan bagaimana menjadi satu?Apr 17, 2025 am 11:44 AM

Membuka Kejayaan Perniagaan: Panduan untuk Menjadi Penganalisis Perisikan Perniagaan Bayangkan mengubah data mentah ke dalam pandangan yang boleh dilakukan yang mendorong pertumbuhan organisasi. Ini adalah kuasa penganalisis Perniagaan Perniagaan (BI) - peranan penting dalam GU

Bagaimana untuk menambah lajur dalam SQL? - Analytics VidhyaApr 17, 2025 am 11:43 AM

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Penganalisis Perniagaan vs Penganalisis DataApr 17, 2025 am 11:38 AM

Pengenalan Bayangkan pejabat yang sibuk di mana dua profesional bekerjasama dalam projek kritikal. Penganalisis perniagaan memberi tumpuan kepada objektif syarikat, mengenal pasti bidang penambahbaikan, dan memastikan penjajaran strategik dengan trend pasaran. Simu

Apakah Count dan Counta dalam Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Pengiraan dan Analisis Data Excel: Penjelasan terperinci mengenai fungsi Count dan Counta Pengiraan dan analisis data yang tepat adalah kritikal dalam Excel, terutamanya apabila bekerja dengan set data yang besar. Excel menyediakan pelbagai fungsi untuk mencapai matlamat ini, dengan fungsi Count dan CountA menjadi alat utama untuk mengira bilangan sel di bawah keadaan yang berbeza. Walaupun kedua -dua fungsi digunakan untuk mengira sel, sasaran reka bentuk mereka disasarkan pada jenis data yang berbeza. Mari menggali butiran khusus fungsi Count dan Counta, menyerlahkan ciri dan perbezaan unik mereka, dan belajar cara menerapkannya dalam analisis data. Gambaran keseluruhan perkara utama Memahami kiraan dan cou

Chrome ada di sini dengan AI: mengalami sesuatu yang baru setiap hari !!Apr 17, 2025 am 11:29 AM

Revolusi AI Google Chrome: Pengalaman melayari yang diperibadikan dan cekap Kecerdasan Buatan (AI) dengan cepat mengubah kehidupan seharian kita, dan Google Chrome mengetuai pertuduhan di arena pelayaran web. Artikel ini meneroka exciti

Sisi Manusia Ai ' s: Kesejahteraan dan garis bawah empat kali gandaApr 17, 2025 am 11:28 AM

Impak Reimagining: garis bawah empat kali ganda Selama terlalu lama, perbualan telah dikuasai oleh pandangan sempit kesan AI, terutama memberi tumpuan kepada keuntungan bawah. Walau bagaimanapun, pendekatan yang lebih holistik mengiktiraf kesalinghubungan BU

5 Kes Pengkomputeran Kuantum Mengubah Permainan Yang Harus Anda KetahuiApr 17, 2025 am 11:24 AM

Perkara bergerak terus ke arah itu. Pelaburan yang dicurahkan ke dalam penyedia perkhidmatan kuantum dan permulaan menunjukkan bahawa industri memahami kepentingannya. Dan semakin banyak kes penggunaan dunia nyata muncul untuk menunjukkan nilainya

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.