Kuantiti adalah kuasa! Tencent mendedahkan: Lebih banyak bilangan ejen, lebih baik kesan model bahasa besar-AI-php.cn

Rumah

Peranti teknologi

Kuantiti adalah kuasa! Tencent mendedahkan: Lebih banyak bilangan ejen, lebih baik kesan model bahasa besar

PHPz

Feb 29, 2024 pm 03:55 PM

Tencentprojek

Pasukan penyelidik Tencent menjalankan kajian tentang kebolehskalaan ejen. Mereka mendapati bahawa melalui pengundian pensampelan mudah, prestasi model bahasa besar (LLM) meningkat dengan bilangan ejen instantiated. Kajian ini adalah yang pertama untuk mengesahkan kesejagatan fenomena ini dalam pelbagai senario, membandingkannya dengan kaedah kompleks lain, meneroka sebab di sebalik fenomena ini, dan mencadangkan kaedah untuk meneruskan kesan penskalaan.

Kuantiti adalah kuasa! Tencent mendedahkan: Lebih banyak bilangan ejen, lebih baik kesan model bahasa besar

paper Tajuk: Lebih banyak ejen adalah semua yang anda perlukan alamat kertas: https://arxiv.org/abs/2402.05120
Code Alamat: https://github.com/moreagentsisalis. /Lebih-Agen-Adalah-Anda-Perlu
Dalam artikel ini, penyelidik dari Tencent mendapati bahawa: hanya melalui kaedah pengundian pensampelan mudah, prestasi model bahasa besar akan meningkat dengan instantiasi ejen. Ia dipertingkatkan apabila bilangan bertambah, menunjukkan sifat penskalaan (kebolehskalaan) tanpa memerlukan rangka kerja kerjasama ejen multi-LLM yang kompleks dan kaedah kejuruteraan segera. Tambahan pula, kaedah ini adalah ortogonal kepada kaedah canggih sedia ada dan, apabila digabungkan, boleh meningkatkan lagi LLM ke tahap yang berkaitan dengan kesukaran tugasan. Kertas kerja ini melakukan kajian pertama mengenai sifat penskalaan ejen mentah (merujuk kepada ejen LLM yang tidak bergantung pada rangka kerja kejuruteraan segera dan kerjasama yang kompleks. Ia menjalankan eksperimen komprehensif pada pelbagai penanda aras LLM untuk mengesahkan kesejagatan penemuan ini strategi yang boleh memudahkan berlakunya. Kod itu kini menjadi sumber terbuka.

Penyelidikan. Dengan membandingkan dengan kaedah yang dicadangkan, dapat dilihat bahawa kertas kerja telah menjalankan kajian dan analisis yang lebih komprehensif.

Untuk mengkaji bagaimana prestasi model bahasa besar bertambah baik apabila bilangan ejen instantiated meningkat. Makalah ini menggunakan kaedah persampelan dan pengundian yang mudah (penulis menggunakan istilah ringkas (st), yang menunjukkan bahawa mereka berpendapat kaedah ini mungkin salah satu kaedah yang paling mudah). Terutama, kaedah ini boleh digabungkan secara ortogon dengan kaedah kompleks sedia ada. Ia boleh dibahagikan kepada dua peringkat:

Masukkan pertanyaan tugasan ke dalam rangka kerja kerjasama Ejen LLM tunggal atau berbilang untuk menjana berbilang output

Tentukan keputusan akhir melalui undian majoriti

Kertas ini memilih model bahasa dengan saiz yang berbeza daripada siri Llama2 dan GPT untuk penilaian Set data tugasan merangkumi pelbagai bidang seperti penaakulan dan penjanaan. Keputusan eksperimen menunjukkan bahawa prestasi LLM didapati meningkat dengan bilangan ejen instantiated pada semua tugas dan jenis dan saiz LLM yang berbeza.

Sebagai contoh, peningkatan adalah 12% hingga 24% pada tugasan GSM8K dan 6% hingga 10% pada tugasan MATH. Menariknya, ensemble berbilang LLM kecil boleh memadankan atau bahkan melebihi prestasi LLM yang lebih besar.

Sebagai contoh, penyepaduan berbilang Llama2-13B mencapai ketepatan 59% pada GSM8K, melebihi ketepatan 54% bagi satu Llama2-70B. Kuantiti adalah kuasa! Tencent mendedahkan: Lebih banyak bilangan ejen, lebih baik kesan model bahasa besar

Seterusnya, penulis juga meneroka keserasian dengan kaedah lain. Walaupun pelaksanaan kaedah-kaedah ini berbeza, apabila digunakan bersama-sama dengan mereka, prestasi boleh dipertingkatkan lagi, Ia juga selaras dengan fenomena bahawa lebih banyak ejen disegerakan, lebih kuat keuntungan prestasi. Keputusan eksperimen menunjukkan bahawa keuntungan antara 1% hingga 27%, menunjukkan bahawa kaedah mudah ini boleh meningkatkan lagi prestasi LLM dengan menggunakannya secara ortogon dengan kaedah lain. A Berdasarkan LLAMA13B
berasaskan LLAMA70B

berasaskan LLAMA70B

, di samping itu, kertas itu juga Menganalisis hubungan antara
peningkatan prestasi dan kesukaran masalah.

Kesukaran intrinsik: Apabila kesukaran tugasan yang wujud meningkat, peningkatan prestasi (iaitu keuntungan prestasi relatif) juga akan meningkat, tetapi apabila kesukaran mencapai tahap tertentu, keuntungan akan beransur-ansur berkurangan. Ini menunjukkan bahawa apabila tugas itu terlalu kompleks, keupayaan penaakulan model mungkin tidak dapat bersaing, mengakibatkan kesan marginal peningkatan prestasi berkurangan.

Bilangan langkah: Apabila bilangan langkah yang diperlukan untuk menyelesaikan tugas meningkat, begitu juga peningkatan prestasi. Ini menunjukkan bahawa dalam tugasan berbilang langkah, menambah bilangan ejen boleh membantu model mengendalikan setiap langkah dengan lebih baik, sekali gus meningkatkan prestasi penyelesaian tugas secara keseluruhan.

Kebarangkalian terdahulu: Semakin tinggi kebarangkalian terdahulu bagi jawapan yang betul, semakin besar peningkatan prestasi. Ini bermakna peningkatan bilangan ejen lebih berkemungkinan membawa kepada peningkatan prestasi yang ketara apabila jawapan yang betul lebih berkemungkinan.
Nod: langkah, garis putus-putus: langkah alternatif yang mungkin. Kedalaman nod: bilangan langkah, keamatan warna: tahap kesukaran yang wujud. Ilustrasi membantu pembaca memahami cara kerumitan tugasan diukur sepanjang dimensi ini.

Berdasarkan perkara ini, kertas kerja mencadangkan dua strategi pengoptimuman untuk meningkatkan lagi keberkesanan kaedah:

Selangkah demi selangkah Persampelan-dan-Memecahkan tugasan: Ini dan Pecahkan tugasan: gunakan pensampelan dan pengundian pada setiap langkah untuk mengurangkan ralat kumulatif dan meningkatkan prestasi keseluruhan.

Pensampelan-dan-Pengundian Hierarki: Kaedah ini menguraikan tugasan berkemungkinan rendah kepada berbilang subtugasan berkemungkinan tinggi dan menyelesaikannya secara hierarki Pada masa yang sama, model yang berbeza boleh digunakan untuk mengendalikan subtugasan dengan kebarangkalian yang berbeza untuk mengurangkan kos .

🎜🎜Akhir sekali, arahan kerja masa hadapan dicadangkan, termasuk mengoptimumkan peringkat persampelan untuk mengurangkan kos, dan terus membangunkan mekanisme yang relevan untuk mengurangkan potensi kesan negatif halusinasi (halusinasi) LLM untuk memastikan penggunaan model berkuasa ini adalah Bertanggungjawab dan membantu. 🎜

Atas ialah kandungan terperinci Kuantiti adalah kuasa! Tencent mendedahkan: Lebih banyak bilangan ejen, lebih baik kesan model bahasa besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang laluByDDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.