Rumah >Peranti teknologi >AI >Model 70B menjana 1,000 token dalam beberapa saat, penulisan semula kod mengatasi GPT-4o, daripada pasukan Kursor, artifak kod yang dilaburkan oleh OpenAI
Model
70B, 1000 token boleh dijana dalam beberapa saat, yang diterjemahkan kepada hampir 4000 aksara!
Para penyelidik telah memperhalusi Llama3 dan memperkenalkan algoritma pecutan Berbanding dengan versi asli, kelajuannya adalah 13 kali lebih pantas!
Bukan sahaja ia pantas, prestasinya pada tugas menulis semula kod malah melepasi GPT-4o.
Pencapaian ini datang dari mana-mana, pasukan di belakang Kursor artifak pengaturcaraan AI yang popular, dan OpenAI turut mengambil bahagian dalam pelaburan.
Anda mesti tahu bahawa pada Groq, rangka kerja pecutan inferens pantas yang terkenal, kelajuan inferens 70B Llama3 hanyalah lebih daripada 300 token sesaat.
Kelajuan kursor boleh dikatakan mencapai penyuntingan fail kod lengkap yang hampir serta-merta.
Sesetengah orang bertanya kepada saya, jika anda meletakkan Llama3 yang diubah suai oleh Kursor pada Groq, berpuluh ribu token boleh dijana sesaat.
Sesetengah orang lebih teruja untuk mengatakan bahawa dalam bidang model besar, kami menghapuskan konsep "delay".
Kaedah pecutan yang direka oleh pengarang kali ini terutamanya digunakan untuk menyelesaikan tugas yang dipanggil "Fast Apply", iaitu mengubah suai dan menggunakan kandungan kod dengan pantas.
Perkara pertama yang perlu diambil perhatian ialah walaupun kesan akhir tugasan ialah pengubahsuaian separa kod, semasa operasi sebenar, output bukan sekadar kandungan yang diubah, tetapi penulisan semula global terus.
Alasannya ialah pilihan yang dibuat oleh pasukan selepas pra-ujian - mereka mendapati bahawa, kecuali Claude-3-Opus, kebanyakan model tidak menunjukkan prestasi yang memuaskan pada tugas pengubahsuaian tempatan yang sebenar.
Terdapat tiga sebab utama untuk ini:
(Walau bagaimanapun, penulis percaya bahawa ini masih merupakan hala tuju penyelidikan masa depan yang berpotensi.)
Selepas menentukan penyelesaian penulisan semula global, pasukan Kursor menggunakan data berkaitan tugasan untuk memperhalusi Llama3.
Data yang digunakan datang daripada dua sumber: data sebenar yang disunting dan data sintetik, yang dicampur pada nisbah 1:4.
Data sintetik merujuk kepada penggunaan GPT-4 untuk menjana cadangan penyuntingan kod, dan kemudian menggunakan model lain untuk "menggunakan" cadangan ini pada kod asal.
Untuk meningkatkan kualiti set data, penulis juga menurunkan sampel fail kecil, fail pendua dan sampel tidak berubah.
Untuk menilai prestasi model ini, pengarang menjalankannya melalui 450 tugas penyuntingan kod (setiap satu tidak lebih daripada 400 baris) dan menjaringkan output dengan Claude3-Opus.
Akhirnya, prestasi model 70B Llama3 yang diperhalusi oleh pengarang hampir sepadan dengan prestasi Claude3-Opus-diff, dan lebih baik daripada GPT-4-Turbo dan GPT-4o.
Penalaan halus setakat ini telah menyelesaikan masalah prestasi, tetapi tidak sukar untuk melihat bahawa Llama3 masih sangat perlahan pada masa ini, dan hanya boleh mengeluarkan kurang daripada 300 aksara sesaat (perhatikan bahawa ia adalah aksara, bukan perkataan atau token).
Dan apa yang membuatkan penulisan semula berfungsi begitu pantas adalah satu lagi senjata rahsia.
Untuk tugas menulis semula kod, pasukan Kursor memperkenalkan algoritma khas yang dipanggil pengeditan ramalan (suntingan spekulatif).
Kaedah ini menggunakan algoritma a priori untuk meramalkan berbilang token seterusnya, dan kemudian menggunakan model ontologi yang besar untuk pengesahan, yang mengurangkan bilangan panggilan ke model besar, sekali gus mengurangkan jumlah pengiraan.
Algoritma a priori ini datang daripada ciri tugas pengekodan-berbanding dengan teks lain, perbendaharaan katanya lebih kecil, dan struktur tatabahasanya, peraturan lekukan, dsb. mempunyai kepastian yang lebih tinggi Menggunakan pengetahuan priori boleh membuat ramalan yang lebih tepat.
Pendekatan ini juga mempunyai persamaan dengan GPT-4 dan Meta -
Sebab mengapa penaakulan model bahasa tradisional lambat adalah terutamanya kerana proses meramal token seterusnya biasanya autoregresif, iaitu model menjana Bagi setiap token, semua token yang dijana sebelum ini dipertimbangkan.
Untuk mengurangkan jumlah pengiraan, model besar yang diwakili oleh GPT-4 menggunakan algoritma pecutan yang dipanggil Penyahkodan ramalan (penyahkodan spekulatif) untuk meramal terlebih dahulu melalui model anggaran kecil, dan kemudian biarkan model besar ontologi Sahkan keputusan ramalan.
Perbezaan antara Kursor dan GPT-4 ialah "model" kecil yang pertama adalah algoritma yang lebih deterministik, manakala yang kedua hanya mengurangkan saiz model dan pada asasnya masih merupakan ramalan kebarangkalian.
Meta telah memperkenalkan algoritma untuk meramalkan berbilang token seterusnya sekaligus, menggunakan n kepala output bebas untuk meramalkan n token masa hadapan secara selari Ternyata berfungsi dengan baik pada tugas pengaturcaraan, kerana struktur logik pengaturcaraan. bahasa lebih ketat, dan hubungan dalaman pengetahuan lebih dekat.
Sudah tentu, Cursor menggunakan sepenuhnya ciri ini daripada menggunakan kepala perhatian, ia secara langsung menggunakan algoritma yang lebih pasti untuk membuat ramalan berbilang token.
Hasil akhir ialah algoritma ramalan membawa peningkatan kelajuan hampir 13 kali ganda kepada 70B Llama3 tanpa kehilangan prestasi penilaian.
Selain itu, penulis juga bekerjasama dengan platform infrastruktur model AI perusahaan kembang api, menggunakan enjin inferens yang dioptimumkan dan persekitaran perkakasan tersuai untuk meningkatkan lagi kecekapan operasi model tersebut.
Pada masa hadapan, pasukan itu juga merancang untuk menjalankan penyulingan pengetahuan dan memindahkan algoritma penyuntingan ramalan kepada Llama3 8B yang lebih kecil, dan mengembangkannya kepada lebih banyak bahasa pengaturcaraan dan tugas.
Pada masa yang sama, penulis juga merancang untuk menambah baik algoritma pengubahsuaian separa (Diff) sebenar yang telah dipelajari oleh pasukan Kursor tetapi tidak diterima pakai.
Dalam eksperimen, penulis bukan sahaja mempercepatkan Llama3 menggunakan algoritma ramalan, tetapi juga mempercepatkan GPT4-Turbo.
Walau bagaimanapun, penulis tidak memperkenalkan cara melaksanakannya dalam GPT, tetapi meninggalkan beberapa persoalan berfikir malah mengadakan "tekaan pemenang hadiah".
Mereka yang boleh menjawab dengan betul akan mendapat keahlian Kursor 1 bulan jika mereka boleh mencapai pecutan ramalan dalam vllm dan TensorRT-LLM, mereka akan mendapat keahlian selama setengah tahun dan setahun.
Jika anda rasa anda mempunyai idea, anda juga boleh mencuba cabaran (kepala anjing manual).
Atas ialah kandungan terperinci Model 70B menjana 1,000 token dalam beberapa saat, penulisan semula kod mengatasi GPT-4o, daripada pasukan Kursor, artifak kod yang dilaburkan oleh OpenAI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!