Rumah >Peranti teknologi >AI >Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Penulis kertas kerja ini semuanya daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Xia , pelajar kedoktoran tahun empat, yang arah penyelidikannya ialah Pembaikan kod automatik berdasarkan model besar AI, Deng Yinlin, pelajar kedoktoran tahun empat, yang arah penyelidikannya adalah penjanaan kod berdasarkan model besar AI; , kini merupakan pelajar tahun tiga di UIUC. Guru Zhang Lingming kini merupakan profesor bersekutu di Jabatan Sains Komputer di UIUC, terutamanya terlibat dalam penyelidikan berkaitan kejuruteraan perisian, pembelajaran mesin dan model besar kod.
Untuk maklumat lebih terperinci, sila lihat laman utama peribadi Teacher Zhang: https://lingming.cs.illinois.edu/
Sejak Devin (jurutera perisian AI automatik sepenuhnya pertama) mencadangkannya, AI untuk kejuruteraan perisian. reka bentuk Ejen telah menjadi tumpuan penyelidikan Semakin ramai jurutera perisian automatik AI berasaskan Agen telah dicadangkan, dan telah mencapai prestasi yang baik pada set data bangku SWE dan membaiki banyak isu GitHub sebenar secara automatik.
Walau bagaimanapun, sistem Ejen yang kompleks akan membawa overhed tambahan dan ketidakpastian Adakah kita benar-benar perlu menggunakan Ejen yang kompleks untuk menyelesaikan isu GitHub? Bolehkah penyelesaian tanpa ejen mendekati prestasi mereka?
Bermula daripada dua masalah ini, pasukan guru Zhang Lingming dari University of Illinois di Urbana-Champaign (UIUC) mencadangkan OpenAutoCoder-Agentless, penyelesaian tanpa Agen sumber mudah, cekap dan terbuka sepenuhnya yang boleh menyelesaikan isu GitHub sebenar hanya $0.34. Agentless telah menarik lebih daripada 300 bintang GitHub di GitHub dalam masa beberapa hari sahaja, dan telah berjaya masuk ke dalam senarai tiga teratas kertas ML paling hangat DAIR.AI mingguan. . com /OpenAutoCoder/Agentless
AWS Research Scientist Leo Boytsov berkata: "Rangka kerja Agentless mengatasi semua penyelesaian Ejen sumber terbuka dan hampir mencapai tahap teratas SWE Bench Lite (27%). Selain itu, ia mengalahkannya dengan ketara lebih rendah kos. Semua penyelesaian sumber terbuka Rangka kerja menggunakan pendekatan pertanyaan hierarki (dengan meminta LLM mencari fail, kelas, fungsi, dll.) untuk menentukan lokasi tampalan, tetapi tidak membenarkan LLM membuat keputusan perancangan masalah pembangunan perisian yang menggunakan pendekatan dua fasa mudah untuk mencari dan membetulkan pepijat dalam pangkalan kod anda. Dalam fasa pengesanan, Agentless menggunakan pendekatan hierarki untuk menyempitkan secara beransur-ansur kepada fail yang mencurigakan, kelas/fungsi dan lokasi pengeditan tertentu. Untuk pembetulan, ia menggunakan format perbezaan mudah (dirujuk daripada alat sumber terbuka Aider) untuk menjana berbilang tampung calon, menapis dan menyusunnya.Analisis set data SWE-bench Lite
Para penyelidik juga menjalankan pemeriksaan manual dan analisis terperinci set data SWE-bench Lite.
Kajian mendapati bahawa 4.3% daripada masalah dalam set data SWE-bench Lite memberikan jawapan lengkap secara langsung dalam huraian masalah, iaitu tampung pembaikan yang betul. Manakala 10% lagi soalan menerangkan langkah-langkah yang tepat untuk penyelesaian yang betul. Ini menunjukkan bahawa beberapa masalah dalam SWE-bench Lite mungkin lebih mudah untuk diselesaikan.
Selain itu, pasukan penyelidik mendapati bahawa 4.3% daripada isu termasuk penyelesaian atau langkah yang dicadangkan pengguna dalam huraian isu, tetapi penyelesaian ini tidak konsisten dengan tampung sebenar pembangun. Ini seterusnya mendedahkan potensi masalah dengan penanda aras ini, kerana penyelesaian yang mengelirukan ini boleh menyebabkan alat AI menghasilkan penyelesaian yang salah hanya dengan mengikuti penerangan masalah.
Dari segi kualiti penerangan masalah, penyelidik memerhatikan bahawa walaupun kebanyakan tugasan dalam SWE-bench Lite mengandungi maklumat yang mencukupi, dan banyak tugasan juga memberikan contoh kegagalan untuk menghasilkan semula ralat, masih terdapat 9.3% masalah Tidak disertakan maklumat yang mencukupi. Sebagai contoh, anda perlu melaksanakan fungsi baharu atau menambah mesej ralat, tetapi nama fungsi tertentu atau rentetan mesej ralat khusus tidak diberikan dalam huraian masalah. Ini bermakna walaupun kefungsian asas dilaksanakan dengan betul, ujian akan gagal jika nama fungsi atau rentetan mesej ralat tidak sepadan dengan tepat.
Para penyelidik di Princeton University dan salah seorang pengarang SWE-Bench, Ofir Press mengesahkan penemuan mereka: "Agentless melakukan analisis manual yang baik terhadap SWE-bench Lite. Mereka percaya bahawa teori pada Lite adalah yang tertinggi. mungkin 90.7%. Saya rasa had atas sebenar mungkin lebih rendah (sekitar 80%). Beberapa soalan mempunyai maklumat yang tidak mencukupi dan yang lain diuji dengan ketat subset masalah
Untuk menangani masalah ini, penyelidik mencadangkan subset masalah yang ketat SWE-bench Lite-S (mengandungi 252 soalan). Khususnya, isu yang mengandungi tampung tepat, penyelesaian yang mengelirukan atau tidak memberikan maklumat yang mencukupi dalam perihalan isu telah dikecualikan daripada SWE-bench Lite (mengandungi 300 isu). Ini mengalih keluar soalan yang tidak munasabah dan menyeragamkan tahap kesukaran penanda aras. Berbanding dengan SWE-bench Lite yang asal, penanda aras yang ditapis lebih tepat menggambarkan keupayaan sebenar alat pembangunan perisian automatik.
Kesimpulan
Walaupun pembangunan perisian berasaskan ejen sangat menjanjikan, penulis percaya bahawa sudah tiba masanya untuk komuniti teknologi dan penyelidikan berhenti dan memikirkan kaedah reka bentuk dan penilaian utamanya, dan bukannya tergesa-gesa mengeluarkan lebih banyak Ejen. Penyelidik berharap Agentless dapat membantu menetapkan semula garis dasar dan hala tuju Ejen dalam kejuruteraan perisian masa hadapan.
Atas ialah kandungan terperinci Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!