Apakah kesan pemotongan rambut alpaka model besar Llama 2? Hari ini, pasukan Chen Danqi dari Princeton University mencadangkan kaedah pemangkasan model besar yang dipanggil LLM-Shearing, yang boleh mencapai prestasi yang lebih baik daripada model saiz yang sama dengan jumlah pengiraan dan kos yang kecil.
Sejak kemunculan model bahasa besar (LLM), mereka telah mencapai hasil yang ketara dalam pelbagai tugas bahasa semula jadi. kesan. Walau bagaimanapun, model bahasa yang besar memerlukan sumber pengkomputeran yang besar untuk dilatih. Akibatnya, industri semakin berminat untuk membina model skala pertengahan yang sama berkuasa, dengan kemunculan LLaMA, MPT dan Falcon, yang membolehkan inferens yang cekap dan penalaan halus. LLM dengan pelbagai saiz ini sesuai untuk kes penggunaan yang berbeza, tetapi setiap model individu dilatih dari awal (walaupun model parameter kecil 1 bilion) Ia masih memerlukan banyak sumber pengkomputeran, yang masih menjadi beban besar bagi kebanyakan institusi penyelidikan saintifik. Jadi dalam artikel ini, pasukan Chen Danqi dari Princeton University cuba menyelesaikan masalah berikut: Bolehkah LLM sedia ada yang telah terlatih digunakan untuk membina lebih kecil, tujuan am LLM yang berdaya saing prestasi sambil memerlukan lebih sedikit pengiraan daripada latihan dari awal? Penyelidik meneroka penggunaan pemangkasan berstruktur untuk mencapai matlamat mereka. Masalahnya di sini ialah untuk LLM tujuan umum, model yang dipangkas akan mengalami kemerosotan prestasi, terutamanya jika tiada pelaburan pengiraan yang ketara selepas pemangkasan. Kaedah pemangkasan cekap yang mereka gunakan boleh digunakan untuk membangunkan LLM yang lebih kecil tetapi masih berdaya saing prestasi, dan latihan memerlukan usaha pengiraan yang jauh lebih sedikit daripada latihan dari awal.
- Alamat kertas: https://arxiv.org/abs/2310.06694#🎜🎜🎜
Alamat kod: https://github.com/princeton-nlp/LLM-ShearingModelsSheared-LLaMA-1.3B, -LLaMA-2.7B
Sebelum memangkas LLM, para penyelidik mengenal pasti dua cabaran teknikal utama, Pertama, bagaimana untuk menentukan struktur pemangkasan akhir dengan prestasi yang kuat dan penaakulan yang cekap? Teknologi pemangkasan berstruktur semasa LLM tidak mempunyai struktur sasaran yang ditentukan, menyebabkan prestasi yang tidak memuaskan dan kelajuan inferens model yang dipangkas kedua, bagaimana untuk meneruskan pra-latihan model yang dipangkas untuk mencapai prestasi yang diharapkan? Mereka mendapati bahawa latihan dengan data pra-latihan mentah menghasilkan pengurangan kerugian yang berbeza di seluruh domain berbanding dengan melatih model dari awal.
Sebagai tindak balas kepada dua cabaran ini, penyelidik mencadangkan algoritma "LLM - ricih"
. Algoritma pemangkasan novel ini, yang dipanggil "pencantasan berstruktur terarah," memangkas model sumber kepada seni bina sasaran yang ditentukan, yang ditentukan oleh konfigurasi model pra-latihan sedia ada. Mereka menunjukkan bahawa kaedah pemangkasan mencari substruktur dalam model sumber dan memaksimumkan prestasi di bawah kekangan sumber. Di samping itu, algoritma pemuatan kelompok dinamik direka bentuk, yang boleh memuatkan data latihan setiap domain mengikut perkadaran mengikut kadar pengurangan kerugian, dengan itu menggunakan data dengan cekap dan mempercepatkan peningkatan prestasi keseluruhan.
Akhir sekali, penyelidik mencantas model LLaMA2-7B kepada dua LLM yang lebih kecil, iaitu Sheared-LLaMA-1.3B dan Sheared -LLaMA-2.7B mengesahkan keberkesanan pendekatannya. Mereka hanya menggunakan 50 bilion token (iaitu 5% daripada bajet pra-latihan OpenLLaMA) untuk memangkas dan meneruskan pra-latihan, tetapi untuk 11 wakil Kedua-dua model masih mengatasi prestasi LLM popular lain yang mempunyai saiz yang serupa, termasuk Pythia, INCITE dan OpenLLaMA, untuk tugasan hiliran seperti pengetahuan am, pemahaman bacaan dan pengetahuan dunia, serta penalaan arahan terjana terbuka.
Tetapi harus disebutkan bahawa apabila kertas ini mengeluarkan Sheared-LLaMA-3B, rekod model sumber terbuka 3B terkuat telah diambil oleh StableLM - Rehat 3B.
Selain itu, jejak prestasi tugasan hiliran menunjukkan bahawa menggunakan lebih banyak token untuk terus melatih model yang dipangkas akan membawa manfaat yang lebih besar. Para penyelidik hanya bereksperimen dengan model sehingga 7 bilion parameter, tetapi ricih LLM adalah sangat umum dan boleh diperluaskan kepada model bahasa besar dalam sebarang saiz dalam kerja akan datang. #🎜🎜🎜🎜🎜🎜🎜🎜 Memandangkan model besar M_S (model sumber) sedia ada, matlamat kertas kerja ini adalah untuk mengkaji cara menjana model M_T (model sasaran) yang lebih kecil dan kukuh dengan berkesan. Kajian itu percaya bahawa ini memerlukan dua peringkat untuk diselesaikan:
Peringkat pertama prunes M_S kepada M_T, walaupun Ini mengurangkan bilangan parameter, tetapi tidak dapat tidak membawa kepada kemerosotan prestasi;
-
pemangkasan berstruktur
#🎜🎜🎜##🎜🎜🎜
Pemangkasan berstruktur boleh mengalih keluar sejumlah besar parameter model, dengan itu mencapai kesan memampatkan model dan mempercepatkan inferens. Walau bagaimanapun, kaedah pemangkasan berstruktur sedia ada boleh menyebabkan model menyimpang daripada konfigurasi seni bina konvensional. Sebagai contoh, kaedah CoFiPruning menghasilkan model dengan konfigurasi lapisan tidak seragam, yang menimbulkan overhed inferens tambahan berbanding konfigurasi lapisan bersatu standard.
Artikel ini memanjangkan CoFiPruning untuk membenarkan pemangkasan model sumber kepada sebarang konfigurasi sasaran yang ditentukan. Sebagai contoh, artikel ini menggunakan seni bina INCITE-Base-3B sebagai struktur sasaran apabila menjana model 2.7B. Selain itu, artikel ini juga mempelajari set topeng pemangkasan (topeng pemangkasan) pada parameter model kebutiran yang berbeza Pembolehubah topeng adalah seperti berikut: Setiap pembolehubah topeng mengawal sama ada untuk memangkas atau mengekalkan substruktur yang berkaitan. Sebagai contoh, jika z^layer yang sepadan= 0, lapisan ini perlu dipadamkan. Rajah 2 di bawah menggambarkan cara topeng pemangkasan mengawal struktur yang dipangkas. Selepas pemangkasan, kertas kerja ini memuktamadkan seni bina yang dipangkas dengan mengekalkan komponen pemarkahan tertinggi yang dikaitkan dengan pembolehubah topeng dalam setiap substruktur, Dan teruskan pra-latihan model cantasan menggunakan objektif pemodelan bahasa.
pemuatan pukal dinamik
#🎜#
#🎜##🎜 #Kajian ini percaya bahawa adalah perlu untuk menjalankan latihan pra-latihan yang meluas bagi model pemangkasan untuk memulihkan prestasi model.
Diinspirasikan oleh penyelidikan lain, kertas kerja ini mencadangkan algoritma yang lebih cekap, pemuatan kelompok dinamik, yang hanya boleh dilaraskan secara dinamik berdasarkan nisbah domain prestasi model. Algoritma adalah seperti berikut: Konfigurasi model: Artikel ini menggunakan model LLaMA2-7B sebagai model sumber, dan kemudian menjalankan eksperimen pemangkasan berstruktur Mereka memampatkan LLaMA2-7B kepada dua saiz sasaran yang lebih kecil iaitu 2.7 B dan 1.3B, dan kemudian. dipangkas Prestasi model dibandingkan dengan model saiz yang sama, termasuk OPT-1.3B, Pythia-1.4B, OPT-2.7B, Pythia-2.8B, INCITE-Base-3B, OpenLLaMA-3B-v1, OpenLLaMA- 3B-v2 . Jadual 8 meringkaskan butiran seni bina model untuk semua model ini.
Data: Memandangkan data latihan LLaMA2 tidak boleh diakses secara terbuka, artikel ini menggunakan set data RedPajama. Jadual 1 menyediakan data pra-latihan yang digunakan oleh model kertas ini dan model garis dasar.
Latihan: Para penyelidik menggunakan sehingga 16 GPU Nvidia A100 (80GB) dalam semua eksperimen.
SHEARED-LLAMA lebih baik dari saiz LM yang sama
Makalah ini menunjukkan bahawa Sheared-LLaMA dengan ketara mengatasi LLM sedia ada dengan saiz yang serupa sambil menggunakan hanya sebahagian kecil daripada belanjawan pengiraan untuk melatih model ini dari awal.
Tugas hiliran: Jadual 2 menunjukkan prestasi sifar dan beberapa pukulan Sheared-LLaMA dan model pra-latihan sedia ada dengan saiz yang serupa pada tugas hiliran prestasi.
Penalaan Arahan: Seperti yang ditunjukkan dalam Rajah 3, Sheared-LLaMA yang ditala arahan mencapai kadar kemenangan yang lebih tinggi berbanding dengan semua model pra-latihan lain pada skala yang sama.
Rajah 4 menunjukkan bahawa model INCITEBase-3B bermula dengan ketepatan yang lebih tinggi, tetapi tahap prestasinya menurun semasa proses pra-latihan yang sedang berjalan.
Akhir sekali, pengkaji menganalisis kelebihan kaedah ini. Keberkesanan pemuatan kelompok dinamikAntaranya, penyelidik menganalisis keberkesanan pemuatan kelompok dinamik daripada tiga aspek berikut: (1) Kehilangan data LM akhir merentas domain, untuk (2 ) setiap domain sepanjang proses latihan, (3) prestasi tugas hiliran. Hasilnya adalah berdasarkan algoritma Sheared-LaMA-1.3B. Perbezaan kerugian merentas domain. Tujuan pemuatan kelompok dinamik adalah untuk mengimbangi kadar pengurangan kerugian bagi setiap domain supaya kerugian mencapai nilai rujukan dalam masa yang lebih kurang sama. Perbezaan antara kehilangan model (pemuatan kelompok asal dan pemuatan kelompok dinamik) dan kehilangan rujukan diplot dalam Rajah 5. Sebaliknya, pemuatan kelompok dinamik mengurangkan kerugian secara sekata dan perbezaan dalam kerugian merentas domain juga sangat serupa, yang menunjukkan bahawa data Penggunaan yang lebih cekap.
Penggunaan data. Jadual 3 membandingkan perkadaran data mentah RedPajama dan penggunaan data domain yang dimuatkan secara dinamik (Rajah 7 menunjukkan perubahan dalam pemberat domain sepanjang proses latihan). Pemuatan pukal dinamik meningkatkan berat domain Buku dan C4 berbanding domain lain, menunjukkan bahawa domain ini lebih sukar untuk dipulihkan daripada model yang dipangkas.
Prestasi hiliran. Seperti yang ditunjukkan dalam Rajah 6, model pemangkasan yang dilatih menggunakan pemuatan kelompok dinamik mencapai prestasi hiliran yang lebih baik berbanding model yang dilatih pada pengedaran RedPajama asal. Ini menunjukkan bahawa pengurangan kerugian yang lebih seimbang yang disediakan oleh pemuatan kelompok dinamik boleh meningkatkan prestasi hiliran.
Perbandingan dengan kaedah pemangkasan lainSelain itu, penyelidik membandingkan kaedah ricih LLM dengan kaedah pemangkasan lain dan melaporkan kekeliruan pengesahan, yang merupakan ukuran keupayaan model keseluruhan sebagai penunjuk yang kuat. Disebabkan oleh pengehadan pengiraan, eksperimen berikut mengawal jumlah belanjawan pengiraan semua kaedah yang dibandingkan dan bukannya menjalankan setiap kaedah hingga akhir. Seperti yang ditunjukkan dalam Jadual 4, di bawah sparsity yang sama, hasil inferens model pemangkasan sasaran dalam artikel ini adalah lebih tinggi daripada model CoFiPruning pemangkasan tidak seragam, tetapi kebingungannya lebih tinggi sedikit.
Jadual 5 menunjukkan bahawa meningkatkan overhed pemangkasan boleh terus meningkatkan kebingungan sambil mengawal jumlah token. Walau bagaimanapun, kerana pemangkasan adalah lebih mahal daripada pra-latihan berterusan, para penyelidik memperuntukkan token 0.4B untuk pemangkasan.
Untuk butiran penyelidikan lanjut, sila rujuk kertas asal. Atas ialah kandungan terperinci Ajar anda cara menggunting 'alpaca' langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!