Rumah > Artikel > Peranti teknologi > Meneroka sempadan ejen: AgentQuest, rangka kerja penanda aras modular untuk mengukur dan meningkatkan prestasi ejen model bahasa besar secara menyeluruh
Berdasarkan pengoptimuman berterusan model besar, ejen LLM - entiti algoritma yang berkuasa ini telah menunjukkan potensi untuk menyelesaikan tugas penaakulan pelbagai langkah yang kompleks. Daripada pemprosesan bahasa semula jadi kepada pembelajaran mendalam, ejen LLM secara beransur-ansur menjadi tumpuan penyelidikan dan industri Mereka bukan sahaja dapat memahami dan menjana bahasa manusia, tetapi juga merumuskan strategi, melaksanakan tugas dalam persekitaran yang pelbagai, dan juga menggunakan panggilan API dan pengekodan untuk Membina. penyelesaian.
Dalam konteks ini, cadangan rangka kerja AgentQuest merupakan peristiwa penting Ia bukan sahaja menyediakan platform penanda aras modular untuk penilaian dan kemajuan ejen LLM, tetapi juga menyediakan platform untuk penyelidikan melalui API yang mudah diperluaskan. . Kakitangan menyediakan alat yang berkuasa untuk menjejak dan meningkatkan prestasi ejen ini pada tahap yang lebih terperinci. Teras AgentQuest terletak pada penunjuk penilaian inovatifnya-kadar kemajuan dan kadar pengulangan, yang boleh mendedahkan corak tingkah laku ejen dalam menyelesaikan tugas, dengan itu membimbing pengoptimuman dan pelarasan seni bina.
"AgentQuest: Rangka Kerja Penanda Aras Modular untuk Mengukur Kemajuan dan Meningkatkan Agen LLM" ditulis oleh pasukan penyelidik yang pelbagai daripada NEC European Laboratories, Politecnico di Torino dan San Cyril y Medo German University. Kertas kerja ini akan dibentangkan di North American Chapter of the Association for Computational Linguistics 2024 persidangan (NAACL-HLT 2024), yang menandakan hasil penyelidikan pasukan dalam bidang teknologi bahasa manusia telah diiktiraf oleh rakan sebaya, yang bukan sahaja nilainya. rangka kerja AgentQuest Pengiktirafan ini juga merupakan pengesahan potensi pembangunan masa depan ejen LLM.
Sebagai alat untuk mengukur dan meningkatkan keupayaan ejen model bahasa besar (LLM), sumbangan utama rangka kerja AgentQuest adalah untuk menyediakan platform penanda aras modular dan berskala. Platform ini bukan sahaja dapat menilai prestasi seseorang ejen terhadap tugas tertentu, tetapi juga mendedahkan corak tingkah laku ejen dalam proses menyelesaikan masalah dengan menunjukkan corak tingkah laku ejen dalam proses menyelesaikan masalah. Kelebihan AgentQuest ialah fleksibiliti dan keterbukaannya, yang membolehkan penyelidik menyesuaikan penanda aras mengikut keperluan mereka, sekali gus menggalakkan pembangunan teknologi ejen LLM.
Rangka kerja AgentQuest ialah alat penyelidikan inovatif yang direka untuk mengukur dan meningkatkan prestasi ejen model bahasa (LLM) berskala besar. Ia membolehkan penyelidik mengesan kemajuan ejen secara sistematik dalam melaksanakan tugas yang kompleks dan mengenal pasti kawasan yang berpotensi untuk diperbaiki dengan menyediakan siri penanda aras modular dan metrik penilaian.
AgentQuest ialah rangka kerja modular yang menyokong pelbagai penanda aras dan seni bina ejen. Ia memperkenalkan dua metrik baharu - kadar kemajuan dan kadar pengulangan - untuk menilai gelagat seni bina ejen. Rangka kerja ini mentakrifkan antara muka standard untuk menyambungkan seni bina ejen sewenang-wenangnya kepada set penanda aras yang pelbagai dan mengira kemajuan dan kadar pengulangan daripadanya.
Dalam AgentQuest, empat ujian penanda aras telah disertakan: ALFWorld, Lateral Thinking Puzzles, Mastermind dan Numerical Solitude. Selain itu, AgentQuest juga memperkenalkan ujian baharu. Anda boleh menambah penanda aras tambahan dengan mudah tanpa membuat perubahan pada ejen yang diuji.
Gambar
Rajah 1: Gambaran keseluruhan interaksi asas ejen dalam rangka kerja semasa AgentQuest. AgentQuest mentakrifkan antara muka biasa untuk berinteraksi dengan penanda aras dan mengira metrik kemajuan, memudahkan penambahan penanda aras baharu dan membenarkan penyelidik menilai dan menguji seni bina ejen mereka.
Inti rangka kerja AgentQuest ialah reka bentuk modularnya, yang membolehkan penyelidik menambah atau mengubah suai penanda aras mengikut keperluan. Fleksibiliti ini dicapai dengan mengasingkan penanda aras dan metrik penilaian ke dalam modul bebas, setiap satunya boleh dibangunkan dan dioptimumkan secara bebas. Komponen utama rangka kerja termasuk:
Modul Penanda Aras: Ini adalah tugasan yang dipratentukan yang perlu dilakukan oleh ejen. Ia terdiri daripada permainan perkataan mudah kepada teka-teki logik yang kompleks.
Modul penunjuk penilaian: Menyediakan satu set alat untuk mengukur prestasi ejen, seperti kadar kemajuan dan kadar pengulangan Penunjuk ini membantu penyelidik memahami corak tingkah laku ejen dalam tugas.
Antara muka API: membolehkan penyelidik menyambungkan seni bina ejen mereka sendiri dengan rangka kerja AgentQuest, serta berinteraksi dengan sumber dan perkhidmatan data luaran.
Kelebihan utama penanda aras modular ialah ia menyediakan cara piawai untuk menilai prestasi ejen yang berbeza. Ini bermakna penyelidik boleh membandingkan hasil daripada ejen yang berbeza di bawah keadaan yang sama, memastikan ketekalan dan kebolehbandingan keputusan. Selain itu, reka bentuk modular juga membolehkan penyelidik menyesuaikan penanda aras kepada keperluan kajian khusus, yang selalunya sukar dicapai dalam rangka kerja penanda aras tradisional.
Metrik penilaian adalah sama penting kerana ia memberikan pandangan mendalam tentang prestasi ejen. Sebagai contoh, kadar kemajuan boleh menunjukkan betapa cekap seorang ejen dalam menyelesaikan tugas, manakala kadar pengulangan mendedahkan sama ada ejen tersekat dalam ulangan pada langkah tertentu, yang boleh menunjukkan keperluan untuk menambah baik proses membuat keputusan.
Antara muka API AgentQuest ialah kunci kepada kebolehskalaannya. Melalui API, penyelidik boleh menyepadukan AgentQuest dengan mudah ke dalam aliran kerja penyelidikan sedia ada, sama ada menambah penanda aras baharu, metrik penilaian atau menyambung kepada sumber dan perkhidmatan data luaran. Kebolehskalaan ini bukan sahaja mempercepatkan proses lelaran penyelidikan, tetapi juga menggalakkan kerjasama antara disiplin, kerana pakar dari pelbagai bidang boleh bekerjasama untuk menyelesaikan soalan penyelidikan biasa menggunakan rangka kerja AgentQuest.
Rangka kerja AgentQuest menyediakan platform yang berkuasa untuk penyelidikan dan pembangunan ejen LLM melalui penanda aras modular dan metrik penilaian serta kebolehlanjutan melalui API. Ia bukan sahaja menggalakkan penyeragaman dan kebolehulangan penyelidikan, tetapi juga membuka jalan untuk inovasi masa depan dan kerjasama ejen pintar.
Dalam rangka kerja AgentQuest, penandaarasan ialah komponen utama untuk menilai prestasi ejen LLM. Ujian ini bukan sahaja menyediakan persekitaran piawai untuk membandingkan kebolehan ejen yang berbeza, tetapi juga boleh mendedahkan corak tingkah laku ejen semasa menyelesaikan masalah tertentu.
AgentQuest mendedahkan satu antara muka Python bersatu, iaitu pemacu dan dua kelas yang mencerminkan komponen interaksi ejen-persekitaran (iaitu pemerhatian dan tindakan). Kelas pemerhatian mempunyai dua sifat yang diperlukan: (i) keluaran, rentetan pelaporan maklumat tentang keadaan persekitaran (ii) penyiapan, pembolehubah boolean yang menunjukkan sama ada tugas akhir sedang disiapkan. Kelas tindakan mempunyai satu atribut yang diperlukan, nilai tindakan. Ini ialah output rentetan secara langsung oleh ejen. Setelah diproses dan diberikan kepada alam sekitar, ia mencetuskan perubahan kepada alam sekitar. Untuk menyesuaikan interaksi, pembangun boleh menentukan sifat pilihan.
Mastermind ialah permainan logik klasik di mana pemain perlu meneka kod warna tersembunyi. Dalam rangka kerja AgentQuest, permainan ini digunakan sebagai salah satu penanda aras, di mana ejen ditugaskan untuk menentukan kod yang betul melalui beberapa siri tekaan. Selepas setiap tekaan, persekitaran memberikan maklum balas, memberitahu ejen berapa banyak yang betul dalam warna tetapi dalam kedudukan yang salah, dan berapa banyak yang betul dalam kedua-dua warna dan kedudukan. Proses ini berterusan sehingga ejen meneka kod yang betul atau mencapai had langkah yang telah ditetapkan.
Rajah 2: Di sini kami berikan contoh interaksi pelaksana Dalang.
Sudoku ialah satu lagi teka-teki logik popular yang memerlukan pemain mengisi nombor dalam grid 9x9 supaya setiap baris, setiap lajur dan setiap subgrid 3x3 mempunyai Tiada nombor berulang. Dalam rangka kerja AgentQuest, Sudoku digunakan sebagai penanda aras untuk menilai keupayaan ejen dalam penaakulan dan perancangan spatial. Ejen mesti menjana strategi pengisian nombor yang cekap dan menyelesaikan teka-teki dalam bilangan pergerakan yang terhad.
AgentQuest memperkenalkan dua metrik penilaian baharu: Kadar Kemajuan (PR) dan Kadar Ulangan (RR). Kadar kemajuan ialah nilai antara 0 dan 1 yang mengukur kemajuan ejen dalam menyelesaikan tugas. Ia dikira dengan membahagikan bilangan pencapaian yang dicapai oleh ejen dengan jumlah bilangan pencapaian. Contohnya, dalam permainan Mastermind, jika ejen meneka dua warna dan lokasi yang betul daripada jumlah empat tekaan, kadar kemajuan ialah 0.5.
Kadar pengulangan mengukur kecenderungan ejen untuk mengulangi tindakan yang sama atau serupa semasa melaksanakan tugas. Apabila mengira kadar ulangan, semua tindakan ejen sebelumnya diambil kira dan fungsi persamaan digunakan untuk menentukan sama ada tindakan semasa adalah serupa dengan tindakan sebelumnya. Kadar ulangan dikira dengan membahagikan bilangan ulangan dengan jumlah bilangan ulangan (tolak langkah pertama).
Metrik ini menyediakan penyelidik alat yang berkuasa untuk menganalisis dan meningkatkan prestasi ejen LLM. Dengan memerhatikan kadar kemajuan, penyelidik dapat memahami betapa cekapnya seorang ejen menyelesaikan masalah dan mengenal pasti kemungkinan kesesakan. Pada masa yang sama, analisis kadar pengulangan boleh mendedahkan kemungkinan masalah dalam proses membuat keputusan ejen, seperti terlalu bergantung pada strategi tertentu atau kekurangan inovasi.
Jadual 1: Gambaran keseluruhan penanda aras yang tersedia dalam AgentQuest.
Secara amnya, penanda aras penunjuk ujian dan penilaian dalam rangka kerja AgentQuest menyediakan sistem penilaian yang komprehensif untuk pembangunan ejen LLM. Melalui alat ini, penyelidik bukan sahaja boleh menilai prestasi semasa ejen, tetapi juga membimbing arah penambahbaikan masa depan, sekali gus menggalakkan aplikasi dan pembangunan ejen LLM dalam pelbagai tugas yang kompleks.
Kes aplikasi sebenar rangka kerja AgentQuest memberikan pemahaman yang mendalam tentang fungsi dan kesannya Melalui Mastermind dan ujian penanda aras lain, kita boleh memerhati prestasi ejen LLM dalam s yang berbeza. , dan menganalisis cara prestasi mereka boleh dipertingkatkan melalui strategi tertentu.
Dalam permainan Mastermind, rangka kerja AgentQuest digunakan untuk menilai keupayaan penaakulan logik ejen. Ejen perlu meneka kod tersembunyi yang terdiri daripada nombor, dan selepas setiap tekaan, sistem memberikan maklum balas yang menunjukkan nombor dan lokasi nombor yang betul. Melalui proses ini, ejen belajar cara menyesuaikan strategi meneka berdasarkan maklum balas untuk mencapai matlamatnya dengan lebih cekap.
Dalam aplikasi praktikal, prestasi awal ejen mungkin tidak ideal, dan tekaan yang sama atau serupa sering diulang, menghasilkan kadar pengulangan yang tinggi. Walau bagaimanapun, dengan menganalisis data mengenai kemajuan dan kadar pengulangan, penyelidik boleh mengenal pasti kelemahan dalam proses membuat keputusan ejen dan mengambil langkah untuk memperbaikinya. Sebagai contoh, dengan memperkenalkan komponen ingatan, ejen boleh mengingati tekaan sebelumnya dan mengelak daripada mengulangi percubaan yang tidak berkesan, dengan itu meningkatkan kecekapan dan ketepatan.
Selain Mastermind, AgentQuest turut menyertakan penanda aras lain seperti Sudoku, permainan perkataan dan teka-teki logik. Dalam ujian ini, prestasi ejen juga dipengaruhi oleh kadar kemajuan dan metrik kadar pengulangan. Contohnya, dalam ujian Sudoku, ejen perlu mengisi grid 9x9 supaya nombor dalam setiap baris, setiap lajur dan setiap subgrid 3x3 tidak berulang. Ini memerlukan ejen mempunyai keupayaan penaakulan spatial dan keupayaan perancangan strategik.
Semasa ujian ini, ejen mungkin menghadapi cabaran yang berbeza. Sesetengah ejen mungkin cemerlang dalam penaakulan spatial tetapi kurang dalam perancangan strategi. Melalui maklum balas terperinci yang disediakan oleh rangka kerja AgentQuest, penyelidik boleh mengenal pasti kawasan masalah dengan cara yang disasarkan dan meningkatkan prestasi keseluruhan ejen melalui pengoptimuman algoritma atau pelarasan kaedah latihan.
Tambahan komponen ingatan memberi kesan yang ketara terhadap prestasi ejen. Dalam ujian Mastermind, selepas menambah komponen memori, ejen dapat mengelak daripada mengulangi tekaan tidak sah, dengan itu mengurangkan kadar pengulangan dengan ketara. Ini bukan sahaja meningkatkan kelajuan di mana ejen menyelesaikan masalah, tetapi juga meningkatkan kadar kejayaan. Selain itu, komponen memori membolehkan ejen belajar dan menyesuaikan diri dengan lebih pantas apabila menghadapi masalah yang sama, dengan itu meningkatkan kecekapan pembelajarannya dalam jangka panjang.
Secara keseluruhannya, rangka kerja AgentQuest menyediakan alat yang berkuasa untuk penilaian prestasi dan penambahbaikan ejen LLM dengan menyediakan penanda aras modular dan metrik penilaian. Melalui analisis kes aplikasi sebenar, kita dapat melihat bahawa prestasi ejen boleh dipertingkatkan dengan ketara dengan melaraskan strategi dan memperkenalkan komponen baharu, seperti modul memori.
Dalam persediaan percubaan rangka kerja AgentQuest, penyelidik mengguna pakai seni bina rujukan berdasarkan ejen sembang siap pakai yang dipacu oleh model bahasa besar (LLM) seperti GPT-4. Seni bina ini dipilih kerana ia intuitif, mudah diperluaskan dan sumber terbuka, yang membolehkan penyelidik menyepadukan dan menguji strategi ejen yang berbeza dengan mudah.
Gambar
Rajah 4: Purata kadar kemajuan PRt dan kadar pengulangan RRt untuk Mastermind dan LTP. Dalang: RRt pada mulanya rendah, tetapi akan meningkat selepas langkah 22, manakala kemajuan juga akan berhenti pada 55%. LTP: Pada mulanya, RRt yang lebih tinggi membolehkan ejen berjaya dengan membuat perubahan kecil, tetapi kemudiannya tahap ini hilang.
Persediaan eksperimen termasuk berbilang ujian penanda aras, seperti Mastermind dan ALFWorld, setiap ujian direka untuk menilai prestasi ejen dalam bidang tertentu. Bilangan maksimum langkah pelaksanaan ditetapkan dalam percubaan, biasanya 60 langkah, untuk mengehadkan bilangan percubaan yang boleh dicuba oleh ejen semasa menyelesaikan masalah. Had ini meniru situasi sumber terhad dalam dunia nyata dan memaksa ejen mencari penyelesaian paling berkesan dalam percubaan terhad.
Dalam ujian penanda aras Mastermind, keputusan eksperimen menunjukkan bahawa kadar ulangan ejen tanpa komponen ingatan adalah agak tinggi dan kadar kemajuan juga terhad. Ini menunjukkan bahawa ejen cenderung untuk terperangkap mengulangi tekaan tidak sah apabila cuba menyelesaikan masalah. Walau bagaimanapun, apabila komponen memori diperkenalkan, prestasi ejen telah meningkat dengan ketara, dengan kadar kejayaan meningkat daripada 47% kepada 60% dan kadar pengulangan menurun kepada 0%. Ini menunjukkan bahawa komponen memori adalah penting untuk meningkatkan kecekapan dan ketepatan ejen.
Gambar
Rajah 5: Contoh operasi berulang dalam Mastermind dan LTP. Dalang: Bermula dengan satu siri pergerakan unik, tetapi kemudian terperangkap mengulangi gerakan yang sama berulang kali. LTP: Tindakan berulang ialah variasi kecil pada masalah yang sama yang membawa kepada kemajuan.
Dalam penanda aras ALFWorld, ejen perlu meneroka dunia teks untuk mengesan objek. Keputusan eksperimen menunjukkan bahawa walaupun ejen mengehadkan ulangan tindakan semasa meneroka ruang penyelesaian (RR60 = 6%), ia gagal menyelesaikan semua permainan (PR60 = 74%). Perbezaan ini mungkin disebabkan oleh fakta bahawa ejen memerlukan lebih banyak langkah penerokaan apabila menemui objek. Apabila memanjangkan masa berjalan penanda aras kepada 120 langkah, kedua-dua kadar kejayaan dan kemajuan bertambah baik, seterusnya mengesahkan kegunaan AgentQuest dalam memahami kegagalan ejen.
Mengikut petunjuk AgentQuest, penyelidik boleh melaraskan seni bina ejen. Sebagai contoh, jika ejen didapati mempunyai kadar pengulangan yang tinggi pada penanda aras tertentu, algoritma membuat keputusannya mungkin perlu dipertingkatkan untuk mengelak daripada mengulangi percubaan yang tidak berkesan. Begitu juga, jika kadar kemajuan rendah, proses pembelajaran ejen mungkin perlu dioptimumkan untuk lebih cepat menyesuaikan diri dengan persekitaran dan mencari penyelesaian kepada masalah.
Metrik persediaan dan penilaian percubaan yang disediakan oleh rangka kerja AgentQuest memberikan cerapan mendalam tentang prestasi ejen LLM. Dengan menganalisis keputusan percubaan, penyelidik boleh mengenal pasti kekuatan dan kelemahan ejen dan melaraskan seni bina ejen sewajarnya untuk meningkatkan prestasinya dalam pelbagai tugas.
Cadangan rangka kerja AgentQuest telah membuka laluan baharu untuk penyelidikan dan pembangunan ejen model bahasa besar (LLM). Ia bukan sahaja menyediakan kaedah sistematik untuk mengukur dan meningkatkan prestasi ejen LLM, tetapi juga menggalakkan pemahaman mendalam komuniti penyelidikan tentang tingkah laku ejen.
AgentQuest membolehkan penyelidik mengukur dengan lebih tepat kemajuan dan kecekapan ejen LLM pada tugas tertentu melalui penanda aras modular dan metrik penilaiannya. Keupayaan penilaian yang tepat ini penting untuk mereka bentuk ejen yang lebih cekap dan bijak. Memandangkan ejen LLM semakin digunakan dalam pelbagai bidang, daripada perkhidmatan pelanggan kepada pemprosesan bahasa semula jadi, alat analisis mendalam yang disediakan oleh AgentQuest akan membantu penyelidik mengoptimumkan proses membuat keputusan ejen dan meningkatkan prestasinya dalam aplikasi praktikal.
Satu lagi sumbangan penting AgentQuest adalah untuk meningkatkan ketelusan penyelidikan ejen LLM. Melalui metrik penilaian awam dan penanda aras yang boleh ditiru, AgentQuest menggalakkan amalan sains terbuka dan menjadikan hasil penyelidikan lebih mudah disahkan dan dibandingkan. Selain itu, sifat modular AgentQuest membolehkan penyelidik menyesuaikan penanda aras, bermakna ujian boleh direka bentuk untuk keperluan dan konteks yang berbeza, menggalakkan kepelbagaian dan kemasukan dalam penyelidikan.
Berikutan kemajuan teknologi, rangka kerja AgentQuest dijangka akan terus berkembang dan bertambah baik. Dengan penambahan penanda aras dan penunjuk penilaian baharu, AgentQuest akan dapat merangkumi lebih banyak jenis tugas dan senario, memberikan perspektif yang lebih komprehensif untuk penilaian ejen LLM. Di samping itu, dengan kemajuan teknologi kecerdasan buatan, AgentQuest juga boleh menyepadukan fungsi yang lebih maju, seperti keupayaan untuk melaraskan seni bina ejen secara automatik untuk mencapai pengoptimuman prestasi yang lebih cekap.
Sumbangan komuniti penyelidikan kepada AgentQuest juga merupakan sebahagian daripada pembangunannya. Sifat sumber terbuka bermakna penyelidik boleh berkongsi penambahbaikan dan inovasi mereka, mempercepatkan kemajuan rangka kerja AgentQuest. Pada masa yang sama, maklum balas dan pengalaman praktikal daripada komuniti penyelidikan akan membantu AgentQuest memenuhi keperluan aplikasi praktikal dengan lebih baik dan menggalakkan pembangunan teknologi ejen LLM.
Rujukan: https://arxiv.org/abs/2404.06411
Atas ialah kandungan terperinci Meneroka sempadan ejen: AgentQuest, rangka kerja penanda aras modular untuk mengukur dan meningkatkan prestasi ejen model bahasa besar secara menyeluruh. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!