Pasukan penyelidik Tencent menjalankan kajian tentang kebolehskalaan ejen. Mereka mendapati bahawa melalui pengundian pensampelan mudah, prestasi model bahasa besar (LLM) meningkat dengan bilangan ejen instantiated. Kajian ini adalah yang pertama untuk mengesahkan kesejagatan fenomena ini dalam pelbagai senario, membandingkannya dengan kaedah kompleks lain, meneroka sebab di sebalik fenomena ini, dan mencadangkan kaedah untuk meneruskan kesan penskalaan.
paper Tajuk: Lebih banyak ejen adalah semua yang anda perlukan alamat kertas: https://arxiv.org/abs/2402.05120
Code Alamat: https://github.com/moreagentsisalis. /Lebih-Agen-Adalah-Anda-Perlu
Dalam artikel ini, penyelidik dari Tencent mendapati bahawa: hanya melalui kaedah pengundian pensampelan mudah, prestasi model bahasa besar akan meningkat dengan instantiasi ejen. Ia dipertingkatkan apabila bilangan bertambah, menunjukkan sifat penskalaan (kebolehskalaan) tanpa memerlukan rangka kerja kerjasama ejen multi-LLM yang kompleks dan kaedah kejuruteraan segera. Tambahan pula, kaedah ini adalah ortogonal kepada kaedah canggih sedia ada dan, apabila digabungkan, boleh meningkatkan lagi LLM ke tahap yang berkaitan dengan kesukaran tugasan. Kertas kerja ini melakukan kajian pertama mengenai sifat penskalaan ejen mentah (merujuk kepada ejen LLM yang tidak bergantung pada rangka kerja kejuruteraan segera dan kerjasama yang kompleks. Ia menjalankan eksperimen komprehensif pada pelbagai penanda aras LLM untuk mengesahkan kesejagatan penemuan ini strategi yang boleh memudahkan berlakunya. Kod itu kini menjadi sumber terbuka.
Penyelidikan. Dengan membandingkan dengan kaedah yang dicadangkan, dapat dilihat bahawa kertas kerja telah menjalankan kajian dan analisis yang lebih komprehensif. Untuk mengkaji bagaimana prestasi model bahasa besar bertambah baik apabila bilangan ejen instantiated meningkat. Makalah ini menggunakan kaedah persampelan dan pengundian yang mudah (penulis menggunakan istilah ringkas (st), yang menunjukkan bahawa mereka berpendapat kaedah ini mungkin salah satu kaedah yang paling mudah). Terutama, kaedah ini boleh digabungkan secara ortogon dengan kaedah kompleks sedia ada. Ia boleh dibahagikan kepada dua peringkat:
Masukkan pertanyaan tugasan ke dalam rangka kerja kerjasama Ejen LLM tunggal atau berbilang untuk menjana berbilang output
Tentukan keputusan akhir melalui undian majoriti
-
Kertas ini memilih model bahasa dengan saiz yang berbeza daripada siri Llama2 dan GPT untuk penilaian Set data tugasan merangkumi pelbagai bidang seperti penaakulan dan penjanaan. Keputusan eksperimen menunjukkan bahawa prestasi LLM didapati meningkat dengan bilangan ejen instantiated pada semua tugas dan jenis dan saiz LLM yang berbeza.
Sebagai contoh, peningkatan adalah 12% hingga 24% pada tugasan GSM8K dan 6% hingga 10% pada tugasan MATH. Menariknya, ensemble berbilang LLM kecil boleh memadankan atau bahkan melebihi prestasi LLM yang lebih besar.
Sebagai contoh, penyepaduan berbilang Llama2-13B mencapai ketepatan 59% pada GSM8K, melebihi ketepatan 54% bagi satu Llama2-70B. Seterusnya, penulis juga meneroka keserasian dengan kaedah lain. Walaupun pelaksanaan kaedah-kaedah ini berbeza, apabila digunakan bersama-sama dengan mereka, prestasi boleh dipertingkatkan lagi, Ia juga selaras dengan fenomena bahawa lebih banyak ejen disegerakan, lebih kuat keuntungan prestasi. Keputusan eksperimen menunjukkan bahawa keuntungan antara 1% hingga 27%, menunjukkan bahawa kaedah mudah ini boleh meningkatkan lagi prestasi LLM dengan menggunakannya secara ortogon dengan kaedah lain. A Berdasarkan LLAMA13B berasaskan LLAMA70B
berasaskan LLAMA70B
, di samping itu, kertas itu juga Menganalisis hubungan antara peningkatan prestasi dan kesukaran masalah.
- Kesukaran intrinsik: Apabila kesukaran tugasan yang wujud meningkat, peningkatan prestasi (iaitu keuntungan prestasi relatif) juga akan meningkat, tetapi apabila kesukaran mencapai tahap tertentu, keuntungan akan beransur-ansur berkurangan. Ini menunjukkan bahawa apabila tugas itu terlalu kompleks, keupayaan penaakulan model mungkin tidak dapat bersaing, mengakibatkan kesan marginal peningkatan prestasi berkurangan.
- Bilangan langkah: Apabila bilangan langkah yang diperlukan untuk menyelesaikan tugas meningkat, begitu juga peningkatan prestasi. Ini menunjukkan bahawa dalam tugasan berbilang langkah, menambah bilangan ejen boleh membantu model mengendalikan setiap langkah dengan lebih baik, sekali gus meningkatkan prestasi penyelesaian tugas secara keseluruhan.
Kebarangkalian terdahulu: Semakin tinggi kebarangkalian terdahulu bagi jawapan yang betul, semakin besar peningkatan prestasi. Ini bermakna peningkatan bilangan ejen lebih berkemungkinan membawa kepada peningkatan prestasi yang ketara apabila jawapan yang betul lebih berkemungkinan. Nod: langkah, garis putus-putus: langkah alternatif yang mungkin. Kedalaman nod: bilangan langkah, keamatan warna: tahap kesukaran yang wujud. Ilustrasi membantu pembaca memahami cara kerumitan tugasan diukur sepanjang dimensi ini.
Berdasarkan perkara ini, kertas kerja mencadangkan dua strategi pengoptimuman untuk meningkatkan lagi keberkesanan kaedah:
- Selangkah demi selangkah Persampelan-dan-Memecahkan tugasan: Ini dan Pecahkan tugasan: gunakan pensampelan dan pengundian pada setiap langkah untuk mengurangkan ralat kumulatif dan meningkatkan prestasi keseluruhan. Pensampelan-dan-Pengundian Hierarki: Kaedah ini menguraikan tugasan berkemungkinan rendah kepada berbilang subtugasan berkemungkinan tinggi dan menyelesaikannya secara hierarki Pada masa yang sama, model yang berbeza boleh digunakan untuk mengendalikan subtugasan dengan kebarangkalian yang berbeza untuk mengurangkan kos .
🎜🎜Akhir sekali, arahan kerja masa hadapan dicadangkan, termasuk mengoptimumkan peringkat persampelan untuk mengurangkan kos, dan terus membangunkan mekanisme yang relevan untuk mengurangkan potensi kesan negatif halusinasi (halusinasi) LLM untuk memastikan penggunaan model berkuasa ini adalah Bertanggungjawab dan membantu. 🎜Atas ialah kandungan terperinci Kuantiti adalah kuasa! Tencent mendedahkan: Lebih banyak bilangan ejen, lebih baik kesan model bahasa besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!