Rumah >Peranti teknologi >AI >Penanda aras SWE-Lancer Openai

Penanda aras SWE-Lancer Openai

尊渡假赌尊渡假赌尊渡假赌
尊渡假赌尊渡假赌尊渡假赌asal
2025-03-04 09:15:11919semak imbas

Penubuhan tanda aras yang meniru tugas-tugas dunia nyata adalah penting dalam bidang kecerdasan buatan yang pesat membangun, terutama dalam domain kejuruteraan perisian. Samuel Miserendino dan Associates membangunkan penanda aras SWE-Lancer untuk menilai bagaimana model bahasa yang besar (LLMS) melaksanakan tugas kejuruteraan perisian freelancing. Lebih 1,400 pekerjaan berjumlah $ 1 juta USD diambil dari upwork untuk mewujudkan penanda aras ini, yang bertujuan untuk menilai kedua -dua tugas penyumbang pengurusan dan individu (IC).

Jadual Kandungan

    Apakah penanda aras SWE-Lancer? Tugas-tugas Tugas Pengurusan
    • Apakah penanda aras SWE-Lancer?
    SWE-Lancer merangkumi pelbagai tugas, dari pembetulan pepijat mudah ke pelaksanaan ciri kompleks. Penanda aras berstruktur untuk memberikan penilaian yang realistik terhadap LLMS dengan menggunakan ujian akhir-ke-akhir yang mencerminkan proses semakan bebas sebenar. Tugas -tugas tersebut dinilai oleh jurutera perisian yang berpengalaman, memastikan standard penilaian yang tinggi.
  • Ciri-ciri SWE-Lancer
    • Pembayaran dunia sebenar
    • : Tugas-tugas dalam SWE-Lancer mewakili pembayaran sebenar kepada jurutera bebas, menyediakan kecerunan kesukaran semulajadi.
    Penilaian Pengurusan
  • : Penanda aras memilih pelan pelaksanaan terbaik dari kontraktor bebas dengan menilai keupayaan model untuk berfungsi sebagai petunjuk teknikal.
    • Kejuruteraan Stack Full-Stack Lanjutan
    • : Oleh kerana kerumitan kejuruteraan perisian dunia nyata, tugas memerlukan pemahaman menyeluruh mengenai pembangunan depan dan back-end.
    • Penggredan yang lebih baik melalui ujian akhir-ke-end
    : SWE-Lancer menggunakan ujian akhir-ke-akhir yang dibangunkan oleh jurutera yang berkelayakan, memberikan penilaian yang lebih teliti daripada tanda aras sebelumnya yang bergantung kepada ujian unit.
  • Mengapa Swe-Lancer penting?
  • Jurang penting dalam penyelidikan AI diisi dengan pelancaran SWE-Lancer: keupayaan untuk menilai model mengenai tugas yang meniru kerumitan pekerjaan kejuruteraan perisian sebenar. Watak multidimensi projek dunia nyata tidak dicerminkan dengan cukup oleh piawaian terdahulu, yang sering tertumpu pada tugas-tugas diskret. SWE-Lancer menawarkan penilaian yang lebih realistik terhadap prestasi model dengan menggunakan pekerjaan bebas sebenar.
  • Metrik penilaian

    Prestasi model dinilai berdasarkan peratusan tugas yang diselesaikan dan jumlah pembayaran yang diperolehi. Nilai ekonomi yang dikaitkan dengan setiap tugas mencerminkan kesukaran dan kerumitan sebenar kerja yang terlibat.

    Contoh tugas

    • $ 250 Penambahbaikan kebolehpercayaan : menetapkan panggilan API yang dicetuskan dua kali.
    • $ 1,000 Bug Fix : Menyelesaikan Perbezaan Kebenaran.
    • $ 16,000 Pelaksanaan ciri : Menambah sokongan untuk main balik video dalam apl di pelbagai platform.

    Dataset SWE-Lancer mengandungi 1,488 tugas kejuruteraan perisian bebas dunia, yang diambil dari Repositori Open-Source Expensify dan asalnya diposkan di Upwork. Tugas -tugas ini, dengan nilai gabungan $ 1 juta USD, dikategorikan kepada dua kumpulan:

    Tugas Kejuruteraan Perisian (IC) Individu (SWE)

Dataset ini terdiri daripada 764 tugas kejuruteraan perisian, bernilai sejumlah $ 414,775, yang direka untuk mewakili kerja jurutera perisian penyumbang individu. Tugas -tugas ini melibatkan tugas IC yang tipikal seperti melaksanakan ciri -ciri baru dan menetapkan pepijat. Untuk setiap tugas, model disediakan dengan:

  • Penerangan terperinci mengenai isu ini, termasuk langkah -langkah pembiakan dan tingkah laku yang dikehendaki.
  • pusat pemeriksaan codebase yang mewakili keadaan sebelum isu ini ditetapkan.
  • Objektif menetapkan isu.

Penyelesaian yang dicadangkan oleh model (patch) dinilai dengan menggunakannya ke codebase yang disediakan dan menjalankan semua ujian akhir-ke-akhir yang berkaitan menggunakan penulis drama. Secara kritis, model tidak mempunyai akses kepada ujian akhir-ke-akhir ini semasa proses penjanaan penyelesaian.

Penanda aras SWE-Lancer Openai

aliran penilaian untuk tugas IC SWE; Model ini hanya mendapat pembayaran jika semua ujian yang berkenaan lulus.

Tugas Pengurusan SWE

Dataset ini, yang terdiri daripada 724 tugas bernilai $ 585,225, mencabar model untuk bertindak sebagai pengurus kejuruteraan perisian. Model ini dibentangkan dengan tugas kejuruteraan perisian dan mesti memilih penyelesaian terbaik dari beberapa pilihan. Khususnya, model menerima:

    Pelbagai penyelesaian yang dicadangkan untuk isu yang sama, diambil secara langsung dari perbincangan sebenar.
  • Gambar dari codebase kerana ia wujud
  • sebelum isu ini telah diselesaikan.
  • Objektif keseluruhan dalam memilih penyelesaian terbaik.
Penyelesaian yang dipilih model kemudiannya dibandingkan dengan penyelesaian terbaik yang sebenarnya untuk menilai prestasinya. Yang penting, kajian pengesahan berasingan dengan jurutera perisian yang berpengalaman mengesahkan kadar perjanjian 99% dengan penyelesaian "terbaik" asal.

aliran penilaian untuk tugas pengurus SWE; Semasa pemilihan cadangan, model ini mempunyai keupayaan untuk melayari codebase.

Juga baca: Andrej Karpathy pada penanda aras penyelesaian teka-teki

Prestasi Model

Penanda aras telah diuji pada beberapa model terkini, termasuk OpenAI's GPT-4O, O1 dan Sonnet Claude 3.5 Anthropic. Hasilnya menunjukkan bahawa walaupun model -model ini menunjukkan janji, mereka masih berjuang dengan banyak tugas, terutama yang memerlukan pemahaman dan konteks teknikal yang mendalam.

Metrik Prestasi

Hasil Penanda aras SWE-Lancer Openai

Jadual ini menunjukkan prestasi model bahasa yang berbeza (GPT-4, O1, 3.5 sonnet) pada dataset SWE-Lancer, dipecahkan oleh jenis tugas (IC SWE, SWE Manager) dan saiz dataset (berlian, penuh). Ia membandingkan ketepatan "lulus@1" mereka (berapa kerap penyelesaian yang dihasilkan adalah betul) dan pendapatan (berdasarkan nilai tugas). Lajur "Alat Pengguna" menunjukkan sama ada model mempunyai akses kepada alat luaran. "Usaha pemikiran" mencerminkan tahap usaha yang dibenarkan untuk penjanaan penyelesaian. Secara keseluruhannya, 3.5 Sonnet umumnya mencapai ketepatan dan pendapatan lulus@1 tertinggi merentasi jenis tugas dan saiz dataset yang berbeza, sambil menggunakan alat luaran dan meningkatkan usaha penalaran cenderung meningkatkan prestasi. Sorotan biru dan hijau menekankan metrik keseluruhan dan asas masing -masing.

Jadual memaparkan metrik prestasi, khususnya "lulus@1" ketepatan dan pendapatan. Metrik keseluruhan untuk set SWE-Lancer berlian dan penuh diserlahkan dengan warna biru, manakala prestasi asas untuk subset IC SWE (Diamond) dan SWE (Diamond) diserlahkan dalam hijau.

Batasan SWE-Lancer

Swe-lancer, sementara berharga, mempunyai beberapa batasan: Penanda aras SWE-Lancer Openai

  • Kepelbagaian repositori dan tugas : Tugas -tugas yang diperoleh semata -mata dari upwork dan repositori perbelanjaan. Ini mengehadkan skop penilaian, terutamanya tugas kejuruteraan infrastruktur, yang kurang bernasib baik.
  • Skop : Tugas bebas sering lebih serba lengkap daripada tugas kejuruteraan perisian sepenuh masa. Walaupun repositori perbelanjaan mencerminkan kejuruteraan dunia nyata, berhati-hati diperlukan apabila merumuskan penemuan melampaui konteks bebas.
  • modaliti : penilaian adalah teks sahaja, kurang pertimbangan bagaimana alat bantu visual seperti tangkapan skrin atau video mungkin meningkatkan prestasi model.
  • Persekitaran : Model tidak boleh bertanya soalan menjelaskan, yang mungkin menghalang pemahaman mereka tentang keperluan tugas.
  • Pencemaran : Potensi pencemaran wujud kerana sifat tugas awam. Untuk memastikan penilaian yang tepat, pelayaran harus dilumpuhkan, dan penapisan pasca hoc untuk penipuan adalah penting. Analisis menunjukkan kesan pencemaran terhad untuk tugas -tugas yang mendahului model pemotongan pengetahuan.

Kerja Masa Depan

SWE-Lancer membentangkan beberapa peluang untuk penyelidikan masa depan:

  • Analisis Ekonomi : Kajian masa depan boleh menyiasat kesan masyarakat agen autonomi ke atas pasaran buruh dan produktiviti, membandingkan pembayaran freelancer kepada kos API untuk menyelesaikan tugas.
  • multimodality : input multimodal, seperti tangkapan skrin dan video, tidak disokong oleh rangka kerja semasa. Analisis masa depan yang termasuk komponen ini mungkin menawarkan penilaian yang lebih teliti terhadap prestasi model dalam situasi praktikal.

anda boleh mencari kertas penyelidikan penuh di sini.

Kesimpulan

SWE-Lancer mewakili kemajuan yang signifikan dalam penilaian LLM untuk tugas kejuruteraan perisian. Dengan menggabungkan tugas bebas dunia dan piawaian ujian yang ketat, ia memberikan penilaian yang lebih tepat mengenai keupayaan model. Penanda aras bukan sahaja memudahkan penyelidikan ke dalam kesan ekonomi AI dalam kejuruteraan perisian tetapi juga menyoroti cabaran yang kekal dalam mengerahkan model -model ini dalam aplikasi praktikal.

Atas ialah kandungan terperinci Penanda aras SWE-Lancer Openai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn