Rumah > Artikel > Peranti teknologi > Menggunakan AI untuk mereka bentuk ejen secara automatik meningkatkan markah matematik sebanyak 25.9%, jauh melebihi reka bentuk manual
Prestasi ejen berasaskan ADAS yang ditemui dengan ketara mengatasi garis dasar rekaan tangan terkini.
Model asas (FM) seperti GPT dan Claude menjadi sokongan kuat untuk ejen tujuan am dan semakin digunakan untuk pelbagai tugas penaakulan dan perancangan.
Namun, apabila menyelesaikan masalah, ejen yang diperlukan biasanya sistem ejen komposit dengan pelbagai komponen dan bukannya pertanyaan model monolitik. Tambahan pula, untuk membolehkan ejen menyelesaikan tugas dunia sebenar yang kompleks, mereka sering memerlukan akses kepada alat luaran seperti enjin carian, pelaksanaan kod dan pertanyaan pangkalan data.
Oleh itu, banyak blok binaan yang berkesan untuk sistem ejen telah dicadangkan, seperti perancangan dan penaakulan rantai pemikiran, struktur ingatan, penggunaan alat, dan refleksi diri. Walaupun ejen ini telah mencapai kejayaan yang luar biasa dalam pelbagai aplikasi, membangunkan blok binaan ini dan menggabungkannya ke dalam sistem ejen yang kompleks selalunya memerlukan penalaan manual khusus domain dan usaha yang besar daripada penyelidik dan jurutera.
Walau bagaimanapun, sejarah pembelajaran mesin memberitahu kita bahawa penyelesaian rekaan tangan akhirnya akan digantikan dengan penyelesaian yang dipelajari oleh model.
Dalam artikel ini, penyelidik dari University of British Columbia dan institusi penyelidikan kecerdasan buatan bukan untung Vector Institute telah merumuskan bidang penyelidikan baharu, iaitu Automated Design of Agentic Systems (ADAS), dan mencadangkan algoritma ADAS yang mudah tetapi berkesan. dipanggil Meta Agent Search untuk membuktikan bahawa ejen boleh mencipta reka bentuk ejen yang baru dan berkuasa melalui pengaturcaraan kod.
Penyelidikan ini bertujuan untuk mencipta reka bentuk sistem ejen yang berkuasa secara automatik, termasuk membangunkan blok binaan baharu dan menggabungkannya dengan cara baharu.
Percubaan menunjukkan bahawa prestasi ejen yang ditemui berdasarkan ADAS dengan ketara mengatasi garis dasar rekaan tangan terkini. Sebagai contoh, ejen yang direka dalam artikel ini meningkatkan skor F1 sebanyak 13.6/100 (berbanding garis dasar) dalam tugasan pemahaman bacaan DROP, dan meningkatkan ketepatan sebanyak 14.4% dalam tugasan matematik MGSM. Tambahan pula, selepas pemindahan merentas domain, ketepatan mereka pada tugas matematik GSM8K dan GSM-Hard bertambah baik masing-masing sebanyak 25.9% dan 13.2% berbanding garis dasar.
Berbanding dengan penyelesaian rekaan tangan, algoritma dalam kertas kerja ini menunjukkan prestasi yang baik, yang menggambarkan potensi ADAS dalam reka bentuk sistem ejen automatik. Tambahan pula, eksperimen menunjukkan bahawa ejen yang ditemui berprestasi baik bukan sahaja apabila memindahkan merentas domain yang serupa, tetapi juga apabila memindahkan merentas domain yang berbeza, seperti daripada matematik kepada pemahaman bacaan.
Alamat kertas: https://arxiv.org/pdf/2408.08435
Alamat projek: https://github.com/ShengranHu/ADAS
Bidang penyelidikan baharu: Reka Bentuk Automatik Sistem Agentik (ADAS)
Kajian ini ——mencadangkan bidang penyelidikan baharu automatik Reka Bentuk Sistem Agen (ADAS), dan menerangkan tiga komponen utama algoritma ADAS—ruang carian, algoritma carian dan fungsi penilaian. ADAS menggunakan algoritma carian untuk menemui sistem ejen merentasi ruang carian.Ruang carian
: Ruang carian mentakrifkan sistem ejen yang boleh dicirikan dan ditemui dalam ADAS. Contohnya, kerja seperti PromptBreeder (Fernando et al., 2024) hanya mengubah gesaan teks ejen, manakala komponen lain (mis., aliran kawalan) kekal tidak berubah. Oleh itu, dalam ruang carian, adalah mustahil untuk mencirikan ejen dengan aliran kawalan yang berbeza daripada aliran kawalan yang telah ditetapkan.Algoritma carian
: Algoritma carian mentakrifkan cara algoritma ADAS meneroka ruang carian. Memandangkan ruang carian selalunya sangat besar atau tidak terhad, pertukaran penerokaan berbanding eksploitasi harus dipertimbangkan (Sutton & Barto, 2018). Sebaik-baiknya, algoritma ini boleh menemui sistem ejen berprestasi tinggi dengan cepat sambil mengelak daripada jatuh ke dalam optima tempatan. Kaedah sedia ada termasuk menggunakan pembelajaran pengukuhan (Zhuge et al., 2024) atau FM yang secara berulang menjana penyelesaian baharu (Fernando et al., 2024) sebagai algoritma carian.Fungsi penilaian
: Bergantung pada aplikasi algoritma ADAS, matlamat pengoptimuman yang berbeza mungkin perlu dipertimbangkan, seperti prestasi, kos, kependaman atau keselamatan ejen. Fungsi penilaian mentakrifkan cara menilai metrik ini untuk ejen calon. Sebagai contoh, untuk menilai prestasi ejen pada data yang tidak kelihatan, pendekatan mudah adalah untuk mengira ketepatan pada data pengesahan tugas. 🎜Konsep teras algoritma ADAS yang mudah tetapi berkesan yang dicadangkan dalam kajian ini - carian ejen meta adalah untuk mengarahkan ejen meta untuk mencipta ejen baharu yang menarik secara berulang, menilai mereka, menambahkannya ke repositori ejen, dan menggunakan ini Repositori membantu ejen meta mencipta ejen baharu dan lebih menarik dalam lelaran berikutnya. Sama seperti algoritma terbuka sedia ada yang mengeksploitasi konsep kepentingan manusia, penyelidikan ini menggalakkan ejen meta-agen untuk meneroka ejen yang menarik dan berharga.
Idea teras carian meta-agen ialah menggunakan FM sebagai algoritma carian untuk memprogramkan ejen baharu yang menarik secara berulang berdasarkan repositori ejen yang semakin berkembang. Kajian itu mentakrifkan rangka kerja mudah (dalam 100 baris kod) untuk ejen meta, menyediakannya dengan set fungsi asas, seperti pertanyaan FM atau petunjuk pemformatan.
Oleh itu, ejen meta hanya perlu menulis fungsi "ke hadapan" untuk menentukan sistem ejen baharu, sama seperti yang dilakukan dalam FunSearch (Romera-Paredes et al., 2024). Fungsi ini menerima maklumat tugas dan mengeluarkan respons ejen terhadap tugas tersebut.
Seperti yang ditunjukkan dalam Rajah 1, idea teras carian meta-agent adalah untuk membenarkan meta-agent memprogramkan ejen baharu secara berulang dalam kod. Program Meta-Agent Gesaan utama untuk program ejen baharu ditunjukkan di bawah, dengan pembolehubah dalam gesaan diserlahkan.
Eksperimen
Semua keputusan percubaan menunjukkan bahawa ejen yang ditemui dalam kertas ini dengan ketara mengatasi ejen rekaan tangan tercanggih. Terutama, ejen yang ditemui dalam kajian ini bertambah baik sebanyak 13.6/100 (skor F1) berbanding garis dasar pada tugasan pemahaman bacaan DROP dan sebanyak 14.4% (ketepatan) pada tugasan matematik MGSM. Di samping itu, ejen yang ditemui oleh penyelidik meningkatkan prestasinya pada tugas ARC sebanyak 14% (ketepatan) berbanding dengan garis dasar selepas berhijrah daripada GPT-3.5 kepada GPT-4, dan apabila berhijrah daripada tugasan matematik MGSM kepada GSM8K dan GSM-Hard . Selepas tugasan matematik yang ditangguhkan, ketepatan meningkat masing-masing sebanyak 25.9% dan 13.2%.
Kajian Kes: Cabaran ARC
Seperti yang ditunjukkan dalam Rajah 3a, carian ejen meta dengan cekap dan progresif boleh menemui ejen yang mengatasi ejen rekaan tangan terkini. Penemuan penting diserlahkan dalam kotak teks.
Tambahan pula, Rajah 3b menunjukkan ejen terbaik ditemui, di mana mekanisme maklum balas yang kompleks digunakan untuk memperhalusi jawapan dengan lebih cekap. Melihat lebih dekat pada kemajuan carian mendedahkan bahawa mekanisme maklum balas yang kompleks ini tidak muncul secara tiba-tiba.
Domain Penaakulan dan Penyelesaian Masalah
Hasil merentas berbilang domain menunjukkan bahawa carian ejen meta boleh menemui ejen yang berprestasi lebih baik daripada ejen rekaan tangan SOTA (Jadual 1).
Generalisasi dan Kebolehpindahan
Para penyelidik seterusnya menunjukkan kebolehpindahan dan kebolehgeneralisasian ejen yang ditemui.
Seperti yang ditunjukkan dalam Jadual 2, penyelidik memerhatikan bahawa ejen yang dicari sentiasa lebih baik daripada ejen rekaan tangan, dan jurangnya adalah besar. Perlu diingat bahawa penyelidik mendapati bahawa model Anthropic yang paling berkuasa, Claude-Sonnet, menunjukkan prestasi terbaik antara semua model yang diuji, membolehkan ejen berdasarkan model ini mencapai hampir 50% ketepatan pada ARC.
Seperti yang ditunjukkan dalam Jadual 3, penyelidik memerhatikan bahawa prestasi carian meta-agen mempunyai kelebihan yang sama berbanding dengan garis dasar. Perlu diingat bahawa berbanding dengan garis dasar, ketepatan ejen kami pada GSM8K dan GSM-Hard masing-masing meningkat sebanyak 25.9% dan 13.2%.
Lebih mengejutkan, penyelidik memerhatikan bahawa ejen yang ditemui dalam domain matematik boleh dipindahkan ke domain bukan matematik (Jadual 4).
Atas ialah kandungan terperinci Menggunakan AI untuk mereka bentuk ejen secara automatik meningkatkan markah matematik sebanyak 25.9%, jauh melebihi reka bentuk manual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!