Rumah  >  Artikel  >  Peranti teknologi  >  Model besar + carian pokok Monte Carlo, satu langkah menjadikan tahap Olimpik LLaMa-3 8B hampir kepada GPT-4

Model besar + carian pokok Monte Carlo, satu langkah menjadikan tahap Olimpik LLaMa-3 8B hampir kepada GPT-4

PHPz
PHPzasal
2024-06-18 16:46:121022semak imbas

Melalui inovasi di peringkat algoritma, keupayaan model bahasa besar untuk menyelesaikan masalah matematik akan terus bertambah baik pada masa hadapan.

Dalam beberapa hari lalu, berita bahawa pelajar sekolah menengah teknik berusia 17 tahun Jiang Ping menduduki tempat ke-12 dunia dalam kelayakan Pertandingan Matematik Global Alibaba 2024 telah membanjiri skrin. Pada masa yang sama, keputusan Cabaran AI menunjukkan bahawa antara semua 563 pasukan AI yang mengambil bahagian, skor tertinggi ialah 34 mata dan skor purata ialah 18 mata, mengejar tahap purata pemain manusia.

Kekurangan utama AI yang menyertai pertandingan matematik ialah keupayaan penaakulan logiknya yang lemah, dan sukar untuk mendapatkan mata penuh untuk soalan bukti. Ini juga merupakan cabaran utama yang dihadapi oleh model bahasa besar (LLM) semasa seperti GPT-4 dan LLaMA dalam tugas yang memerlukan strategi dan penaakulan logik.

Salah satu halangan penting ialah ketepatan dan kredibiliti output, terutamanya dalam konteks matematik di mana ketepatan perlu dijamin, LLM sering menghasilkan halusinasi apabila membuat alasan. Output mungkin kelihatan munasabah pada permukaan, tetapi sebenarnya tidak relevan atau tidak tepat secara fakta, akhirnya membawa kepada proses penaakulan yang tidak munasabah.

Teknik menulis semula secara semula jadi seperti memperhalusi diri boleh membantu menangani berat sebelah ini, tetapi masih boleh membawa kepada keputusan yang mengelirukan atau salah untuk masalah matematik dunia sebenar yang kompleks.

Oleh itu, untuk menangani cabaran ini, penyelidik dari Fudan University dan Shanghai AI Lab mencadangkan MCT Self-Refine (MCTSr), yang menggabungkan LLM dengan algoritma Monte Carlo Tree Search (MCTS) dan menumpukan pada peningkatan prestasi LLM dalam kompleks. tugasan. Prestasi pada tugasan penaakulan matematik (seperti soalan Olimpik Matematik).

MCTS ialah alat membuat keputusan yang digunakan secara meluas dalam senario kecerdasan buatan yang memerlukan perancangan strategik, biasanya dalam permainan dan persekitaran penyelesaian masalah yang kompleks. Dengan menggabungkan keupayaan penerokaan sistem MCTS dengan keupayaan Penapisan Kendiri dan Penilaian Kendiri LLM, kertas kerja ini bertujuan untuk mencipta rangka kerja yang lebih berkuasa untuk menangani tugas penaakulan kompleks yang sukar diselesaikan dengan LLM semasa.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

  • Paper Alamat: https://arxiv.org/pdf/2406.07394

  • project Alamat: https://github.com/trotsky1997/mathblackbox

however, ketika menggabungkan MCT dengan LLM dengan LLM dengan LLM dengan LLM dengan LLM dengan LLM dengan LLM dengan LLM Terdapat beberapa cabaran teknikal semasa proses penyepaduan. Strategi MCTS tradisional mungkin tidak sesuai dengan sifat stokastik dan generatif output LLM, yang biasanya melibatkan ruang tindakan berpotensi yang tidak terhingga dan berterusan. Ketidakkonsistenan ini memerlukan pengiraan jangkaan tersuai dan kaedah penyebaran belakang dalam rangka kerja MCTS untuk menampung sifat unik LLM dengan lebih baik.

Selain itu, para penyelidik memperkenalkan strategi pemangkasan dinamik yang menggabungkan formula batas atas keyakinan (UCB) yang dipertingkatkan untuk mengoptimumkan keseimbangan penerokaan-eksploitasi yang diperlukan untuk membuat keputusan yang berkesan dalam tugas berisiko tinggi.

Adalah boleh dikatakan bahawa penyelidikan ini memajukan aplikasi LLM dalam cabaran penaakulan yang kompleks dan meletakkan asas untuk penyepaduan masa depan inovasi teknologi berkaitan AI, sekali gus membolehkan aplikasi yang dipacu LLM mempunyai pembuatan keputusan yang lebih berkuasa, ketepatan penaakulan dan kebolehpercayaan seks.

Tinjauan Keseluruhan Kaedah

Gambar rajah seni bina MCTSr ditunjukkan dalam Rajah 1:

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4 Aliran kerja MCTSr termasuk:

  • Inisialisasi: Gunakan jawapan yang dijana model dan tiruan;
  • Pemilihan: Algoritma ini menggunakan fungsi nilai Q untuk mengisih semua jawapan yang tidak dikembangkan sepenuhnya, dan menggunakan strategi tamak untuk memilih nod dengan nilai tertinggi untuk penerokaan dan pengoptimuman selanjutnya

  • Perhalusi Kendiri: Pilih jawapan yang baik a Gunakan rangka kerja Perhalusi Sendiri untuk pengoptimuman. Pada mulanya, model menjana maklum balas m yang membimbing proses pengoptimuman untuk menghasilkan jawapan yang dipertingkatkan a '

  • Penilaian Kendiri: Jawapan yang diperhalusi dijaringkan untuk sampel nilai ganjaran, dan nilai Qnya dikira. Ini melibatkan maklum balas dan kekangan ganjaran kendiri model, seperti piawaian pemarkahan yang ketat dan menyekat markah penuh untuk memastikan kebolehpercayaan dan kesaksamaan pemarkahan

  • Rambatan belakang: Merambat balik nilai jawapan yang diperhalusi kepada nod induknya dan lain-lain Nod yang berkaitan dengan; kemas kini maklumat nilai pokok. Jika nilai Q mana-mana nod anak berubah, kemas kini nilai Q nod induk

  • Kemas kini UCT: Selepas kemas kini nilai Q semua nod selesai, tentukan set nod calon C untuk pengembangan atau pemilihan selanjutnya, dan kemudian gunakan Formula kemas kini UCT mengemas kini nilai UCT semua nod sebagai persediaan untuk peringkat pemilihan seterusnya.

Ulang peringkat di atas sehingga syarat penamatan T dipenuhi.

Memperhalusi Diri

Dalam peringkat memperhalusi diri, model mengoptimumkan jawapan a kepada soalan P melalui beberapa pusingan gesaan penghalusan dialog. Pertama, model menjana ulasan reflektif atau kritis m tentang jawapan a. Selepas itu, di bawah bimbingan m, model mengubah suai jawapan a untuk menghasilkan versi yang lebih baik a' Penambahbaikan berulang ini meningkatkan kualiti tindak balas model.

Penilaian Kendiri

Dalam proses pemurnian jawapan masalah matematik P, nilai Q bagi jawapan a ditakrifkan sebagai kualiti yang diharapkan untuk memurnikan lagi a kepada jawapan yang lebih baik. Takrifan ini adalah berdasarkan sifat Markov bagi peralihan daripada a kepada bentuk yang ditulis semula, iaitu keadaan seterusnya (iaitu jawapan yang ditulis semula) hanya bergantung pada keadaan semasa (iaitu jawapan semasa a) dan tiada kaitan dengan keadaan sebelumnya.

Selain itu, penyelidik juga mereka bentuk tiga kekangan: kekangan segera, penindasan skor penuh dan pensampelan berulang. Selepas pensampelan, hitung nilai Q bagi a.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Backpropagation

Selepas nilai ganjaran semua nod daun telah diambil sampel dan nilai Q dikemas kini, perubahan ini kemudiannya disebarkan ke nod induk dan nod nenek moyang mereka. Semasa proses kemas kini ini, jika nilai fungsi Q bagi mana-mana elemen dalam set Kanak-kanak (a) nod a berubah, nilai fungsi Q nod a juga akan dikemas kini. Penyebaran sedemikian memastikan bahawa nilai Q nod mencerminkan status dan penilaian terkini semua kemungkinan anak-anaknya.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Kemas kini UCT dan Pemilihan

Selepas mengemas kini nilai Q semua nod dalam pepohon, pusingan seterusnya fasa pemilihan akan dimasukkan. Proses ini termasuk langkah-langkah berikut:

  • Pemilihan nod calon: Apabila memilih nod, penyelidik tidak perlu bermula dari nod akar, tetapi merentasi nod dalam pepohon dalam susunan hierarki.

  • UCT Update: Melukis daripada AlphaGo, kajian ini menggunakan kaedah UCT dan UCB-1 untuk mengimbangi penerokaan dan penggunaan nod; untuk nod a dalam set calon C, nilai UCT_anya ialah:

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Fungsi Penamatan

Penamatan Awal: Penamatan berlaku apabila peningkatan dalam hasil carian mula berkurangan atau apabila carian berturut-turut menghasilkan hasil pendua.

Kekangan Carian: Carian ditamatkan apabila bilangan pengembangan mencapai had yang telah ditetapkan atau satu atau lebih nod dalam pepohon memenuhi kekangan kedalaman maksimum.

Hasil eksperimen

Untuk menilai keberkesanan algoritma MCTSr dalam menyelesaikan masalah matematik, penyelidik menggunakan LLaMA3-8B sebagai model asas dan menggunakan MCTSr untuk peningkatan. Mereka membandingkan LLaMA3-8B dengan GPT-4, Claude 3 dan Gemini 1.5-Pro ​​dalam beberapa persediaan termasuk Zero-Shot CoT, Self-Refine, MCTSr 4-pelancaran dan MCTSr 8-pelancaran.

Para penyelidik menilai kaedah di atas pada set ujian GSM8K dan GSM-hard (yang masing-masing mengandungi masalah matematik biasa dan mencabar), dan keputusan ditunjukkan dalam Jadual 1 di bawah.

Boleh didapati bahawa terdapat korelasi langsung antara bilangan pelancaran dan kadar kejayaan MCTSr, dan ia meningkat dengan ketara apabila bilangan lelaran meningkat, terutamanya dalam GSM8K yang kurang kompleks. Walau bagaimanapun, untuk set ujian GSM-Hard yang lebih kompleks, had prestasi akan dicapai walaupun bilangan pelancaran lebih tinggi, menunjukkan bahawa strategi semasa mempunyai had dalam menyelesaikan masalah yang kompleks.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4Hasil ini menyerlahkan keteguhan dan sempadan potensi algoritma MCT-Perhalusi Sendiri, serta keperluan untuk penambahbaikan berterusan untuk menangani cabaran yang lebih kompleks dengan berkesan.

Jadual 2 di bawah menunjukkan keputusan penggunaan algoritma MCT-Self-refine pada tahap kerumitan yang berbeza pada dataset MATH. Set data dibahagikan kepada lima tahap kesukaran, daripada Tahap 1 (paling mudah) hingga Tahap 5 (paling mencabar).

Hasilnya menunjukkan Tahap 1 mempunyai kadar kejayaan tertinggi Selepas 8 pelancaran, MCTSr mencapai kadar kejayaan 90.16% dan menyelesaikan 394 daripada 437 masalah. Apabila bilangan pelancaran meningkat, kadar kejayaan pada tahap ini meningkat dengan ketara.

Pada kesukaran Tahap 5 yang paling mencabar, selepas 8 pelancaran, MCTSr mempunyai kadar kejayaan 34.06%, menyelesaikan 451 daripada 1324 masalah. Ini menggambarkan had prestasi algoritma ini dalam senario yang sangat kompleks apabila kesukaran meningkat.

Prestasi keseluruhan semua peringkat menunjukkan bahawa selepas 8 pelancaran, MCTSr mempunyai kadar kejayaan terkumpul sebanyak 58.24%, menyelesaikan 2912 daripada 5000 masalah. Kadar kejayaan ini adalah peningkatan ketara berbanding kadar kejayaan awal Zero-Shot CoT sebanyak 24.36%. Ini menunjukkan bahawa peningkatan dalam bilangan pelancaran adalah konsisten dengan peningkatan dalam kadar kejayaan, menekankan keberkesanan algoritma MCT-Self-refine dalam meningkatkan keupayaan penyelesaian masalah pada tahap kerumitan matematik yang berbeza.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4Hasil ini juga mengesahkan potensi algoritma MCT-Self-refine dalam konteks akademik dan penyelesaian masalah, dan menyerlahkan kebolehskalaan dan kebolehsuaiannya kepada masalah tahap kerumitan yang berbeza dalam dataset MATH.

🎜🎜Jadual 3 di bawah menunjukkan algoritma MCT-Self-refne yang diuji pada tiga set data Pertandingan Matematik Olympiad: AlME, GAIC Math Odyssey dan OlympiadBench. 🎜

AIME: Daripada 2.36% untuk Zero-Shot CoT (22 masalah diselesaikan) kepada 11.79% untuk MCTSr (110 masalah diselesaikan).

GAIC Math Odyssey: Kadar kejayaan meningkat daripada 17.22% (67 masalah diselesaikan) kepada 49.36% (192 masalah diselesaikan).

OlympiadBench: Ditingkatkan daripada 1.25% pada Zero-Shot CoT (16 masalah diselesaikan) kepada 7.76% pada MCTSr (99 masalah diselesaikan).

Keputusan ini mengesahkan kebolehgunaan algoritma MCT-Self-refine pada masalah matematik yang tidak kelihatan, menunjukkan kelebihannya dalam persekitaran akademik yang kompetitif seperti Olympiads.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

seperti ditunjukkan dalam Jadual 4. Apabila dibandingkan dengan model besar sumber tertutup semasa, MCTSr boleh meningkatkan keupayaan penaakulan matematik model sumber terbuka parameter kecil (seperti LLaMa-3) ke tahap yang setanding dengan berkesan.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Sila rujuk kertas asal untuk butiran lanjut teknikal dan keputusan percubaan.

Atas ialah kandungan terperinci Model besar + carian pokok Monte Carlo, satu langkah menjadikan tahap Olimpik LLaMa-3 8B hampir kepada GPT-4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn