Rumah > Artikel > Peranti teknologi > Di luar Devin! Diketuai oleh Yao Ban, mereka mencipta rekod dunia baharu untuk pengaturcaraan model besar
Melebihi Devin! SWEBench telah mengalu-alukan pemain baharu dalam senarai ranking -
StarShip CodeGen Agent, dihasilkan oleh syarikat permulaan OpenCSG yang diketuai oleh Yao Ban, dan menduduki tempat kedua di dunia dengan markah 23.67%.
Pada masa yang sama, ia mencipta rekod tertinggi untuk model asas bukan GPT-4o(SOTA).
Kita semua tahu bahawa penilaian SWebench adalah sangat hampir dengan senario pengaturcaraan sebenar dan amat sukar ia bukan sahaja memerlukan model untuk memahami keperluan, menyelaraskan perubahan berbilang fungsi/kelas dan juga fail, tetapi juga memerlukan model untuk. berinteraksi dengan persekitaran pelaksanaan dan mengendalikan konteks yang sangat panjang dan melakukan penaakulan logik yang kompleks untuk tugas penjanaan kod tradisional.
Dalam ujian sebenar yang sukar ini, GPT4 dan Devin yang paling maju dalam industri hanya boleh menyelesaikan 1.74% dan 13.86% masalah.
Pencapaian ini merupakan langkah utama berdasarkan OpenCSG untuk menggalakkan pembangunan model bahasa ke arah yang lebih praktikal, pintar dan autonomi. Langkah ini menandakan langkah penting yang diambil oleh syarikat domestik dalam mempromosikan pembangunan aplikasi model bahasa ke arah yang lebih praktikal, pintar dan autonomi.
Pada Mac 2024, kemunculan Devin, jurutera perisian AI pertama, meletupkan seluruh dunia teknologi. Walaupun disertai dengan beberapa siri kontroversi, keupayaan inovasi Devin yang kukuh dan potensi besar telah membawa jangkaan baharu kepada ramai peminat dan pengamal AI. Devin mempunyai kemahiran teknikal yang mendalam dan rizab pengetahuan yang luas Dia terkenal dengan algoritma yang sangat baik dan kebolehan pengaturcaraan yang hebat. Hasil penyelidikannya dan perisian yang dibangunkan sentiasa menerobos dan berinovasi, membawa ramai peminat dan pengamal AI
Devin bukan sahaja boleh menyelesaikan tugas pengekodan dengan mudah, tetapi juga boleh menyelesaikan keseluruhan kitaran pembangunan perisian secara bebas - daripada perancangan projek hingga ke penempatan, meliputi tetapi tidak terhad kepada membina tapak web, mencari dan membetulkan pepijat secara autonomi, melatih dan memperhalusi model AI, dsb.
Kenapa Devin berani mencabar keupayaan pengaturcaraan model asas seperti GPT4?
Intinya ialah jurutera perisian bukan sahaja menulis kod, tetapi juga melibatkan pemahaman keperluan, tafsiran kod, perancangan pengaturcaraan, penjanaan kod, penyahpepijatan dan pembaikan pengecualian, dsb. Setiap pautan di sini akan mempengaruhi kebolehgunaan dan kesan pengaturcaraan model besar.
Untuk senario kehidupan sebenar sedemikian, Princeton University mencadangkan SWEBench, alat untuk menilai secara kuantitatif keupayaan penjanaan kod hujung ke hujung.
Skor GPT-4 pada SWEBench hanya 1.74% Walaupun dengan teknologi RAG, skornya kurang daripada 3%, yang menunjukkan bahawa adalah mustahil untuk menyelesaikan masalah pengaturcaraan secara langsung dengan bergantung semata-mata pada model asas. daripada.
Dan inovasi teknologi Devin adalah berdasarkan pembinaan aliran kerja berasaskan Agen, yang meningkatkan kadar penyelesaian SWEBench ke tahap yang baharu.
Pada bulan Mac, Devin mendahului senarai dengan kadar penyelesaian masalah sebanyak 13.86% secara bebas, yang secara langsung meningkatkan "pengaturcaraan model besar" daripada keadaan hampir tidak boleh digunakan kepada "melihat cahaya hari". Syarikat-syarikat utama Lembah Silikon dan syarikat permulaan model besar telah memasuki bidang LLM untuk SE, dan rekod ini telah ditulis semula secara berterusan.
Sehingga akhir April 2024, rekod terbaik ialah 20.33% yang ditetapkan oleh Ejen Pembangun Q Amazon yang dilancarkan oleh pasukan AI Amazon.
Malangnya, berbanding "membiarkan seratus bunga mekar" syarikat China dalam senarai model asas, syarikat China jarang menyertai cabaran sukar ini, sehingga kali ini OpenCSG menulis semula rekod ini.
Keputusan penilaian terkini SWEBench telah dikemas kini ke tempat kedua dalam senarai Ejen OpenCSG StarShip CodeGen yang dilancarkan oleh syarikat itu mencapai kadar lulus 23.67% dalam keputusan ini bukan sahaja mengatasi keputusan Devin dan Amazon. . untuk aplikasi model besar dalam industri menegak. Pasukan ini mempunyai pengalaman mendalam dalam pengkompaunan sumber terbuka dan model besar -
CEO Chen Ran ialah seorang usahawan terkenal dalam bidang perisian sumber terbuka dan telah berjaya membina banyak syarikat komersial dalam bidang sumber terbuka.
CTO Wang Weiberasal dari Kelas 05 Yao Universiti Tsinghua dan mempunyai pengalaman penyelidikan dan pembangunan bertahun-tahun dalam bidang kecerdasan buatan. Pasukan R&D teras syarikat juga menghimpunkan pelajar elit dari Universiti Tsinghua, Universiti Peking, Wharton, Universiti Sains dan Teknologi Hong Kong dan universiti lain.
Jadi bagaimana pasukan sedemikian mencipta rekod baharu? Pada masa ini, banyak syarikat sedang aktif meneroka dan mengamalkan model asas, model domain menegak, RAG dan teknologi lain, manakala OpenCSG telah memilih arah fokus:
Dedikasi kepada pembangunan inovatif ejen pengaturcaraan dan pengoptimuman mendalam model besar algoritma.
Tahap ejen: Berbeza daripada rangka kerja Ejen LLM+RAG atau am, Agen OpenCSG StarShip CodeGen direka untuk ejen yang sangat disesuaikan dan dioptimumkan dalam bidang penyelidikan dan pembangunan perisian: menyepadukan semua peringkat penyelidikan dan pembangunan (pemahaman keperluan, kod perolehan semula, perancangan pengaturcaraan, penulisan kod dan Pengesahan kitaran, dsb.) Dilaksanakan melalui Agen LLM, dan digabungkan dengan kaedah kejuruteraan perisian, seperti analisis sintaks AST, perolehan semula kebergantungan, dsb. untuk pengoptimuman yang mendalam, kami berusaha untuk kecemerlangan dalam setiap pautan, dan akhirnya mencapai penjanaan kod ketepatan lebih tinggi melalui penyepaduan.
Tahap algoritma: Sebagai tindak balas kepada masalah biasa seperti konflik API yang disebabkan oleh perubahan versi kod, OpenCSG mencadangkan model guru penyesuaian, yang menganalisis rekod perubahan versi kod melalui model guru untuk menjana data pengaturcaraan berkualiti tinggi dan menggunakannya untuk meningkatkan kesan penjanaan model asas. Menurut penilaian, penambahbaikan yang dibawa oleh inovasi ini jauh lebih baik daripada model RAG semasa, terutamanya dalam senario projek popular di mana struktur API dikemas kini dengan kerap. Keputusan berkaitan bahagian ini telah dibentuk menjadi kertas kerja dan diserahkan kepada persidangan antarabangsa.
Inilah Algoritma + Kejuruteraan pendekatan serampang dua mata dan model penambahbaikan berterusan yang membolehkan OpenCSG CodeGen Agent menonjol di kalangan model lain.
Jika penilaian sebenar Ejen CodeGen adalah ujian kecil, maka StarShip membawa pelan tindakan besar OpenCSG.
Berkenaan kedudukan produk StarShip, Ketua Pegawai Eksekutif OpenCSG Chen Ran berkata:
StarShip melaksanakan visi kami untuk membentuk semula pembangunan perisian untuk model besar. Pengguna membentuk pasukan pekerja digital mereka sendiri melalui ejen terbina dalam StarShip. CodeGen Agent ialah pengaturcara digital yang dibina ke dalam platform Pada masa ini, penyemak kod CodeReview Agent dan jurutera soal jawab kod CodeSearch telah dikeluarkan. Tidak seperti alat bantuan pengekodan, kami mengharapkan pekerja digital ini bekerja secara langsung dan bebas tanpa memerlukan campur tangan bantuan manusia. Pada masa hadapan, kami akan mengeluarkan lebih banyak jenis pekerja digital untuk merangkumi sepenuhnya semua aspek keperluan, reka bentuk, pengekodan, ujian dan operasi serta penyelenggaraan.
CTO Wang Wei berkata bahawa laluan ini penuh dengan cabaran tetapi sangat menarik, "Daripada prinsip pertama, peningkatan produktiviti oleh model besar bukan lagi persoalan 'ya' atau 'tidak', tetapi bila dan bagaimana." Di mana dan dalam bentuk apa, StarShip adalah jawapan yang kami cuba berikan "
Selain StarShip, pasukan OpenCSG juga cukup produktif: platform model sumber terbuka CSGHub, model pra-latihan wukong, CSSGoder fine. -kod penalaan. Model dll. Produk ini diletakkan dengan tepat dan diterima baik dalam industri.
Pelancaran pantas dan lelaran produk ini bukan sahaja memenuhi permintaan pasaran, tetapi juga memenuhi matlamat bersama: untuk memperkasakan semua orang dalam setiap perusahaan dengan model yang besar.
Untuk membolehkan model besar memperkasakan setiap syarikat dan setiap orang, kita perlu membuat model besar sama seperti air dan elektrik. Jika model besar ialah tenaga elektrik, maka CSGHub ialah rangkaian kuasa elektrik, dan StarShip ialah pelbagai peralatan rumah, yang akhirnya akan memperkasakan ribuan isi rumah.
Konsep OpenCSG ialah sumber terbuka Sebagai sebuah syarikat yang menegaskan sumber terbuka sebagai terasnya, ia bukan sahaja merealisasikan model dan kod sumber terbuka, tetapi juga menjadikan platform sumber terbuka.
CTO Wang Wei merumuskannya dengan cara ini: Kami adalah syarikat muda yang mendapat manfaat daripada sumber terbuka supaya kami boleh membuat beberapa hasil dalam masa yang lebih singkat Pada masa yang sama, kami juga akan memberikan kembali kepada komuniti sumber terbuka dalam Ini adalah prinsip asas komuniti sumber terbuka. Di samping itu, saya sangat bersetuju dengan kenyataan Sam Altman bahawa sumber terbuka hanyalah model, dan nilai produk lebih penting daripada model.
“Tanda aras itu sendiri hanyalah angka Dengan pelancaran GPT4-o, markah ujian SWEBench dijangka melebihi 30% tidak lama lagi, dan anggaran optimistik boleh melebihi 50% dan kami lebih mengambil berat tentang nilai produk di sebalik ini nombor: Dengan penambahbaikan keupayaan model dan teknologi kejuruteraan, pekerja digital akan berubah daripada perubahan kuantitatif kepada perubahan kualitatif, daripada boleh digunakan kepada mudah digunakan, membawa kepada wabak yang menyeluruh dalam pelbagai industri." Wang Wei menjelaskan, "Ini mungkin baru era dalam konteks era model besar Perubahan besar, daripada syarikat kepada individu, kita semua perlu bersedia untuk ini.”
Atas ialah kandungan terperinci Di luar Devin! Diketuai oleh Yao Ban, mereka mencipta rekod dunia baharu untuk pengaturcaraan model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!