Ajar anda cara menggunting 'alpaca' langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing-AI-php.cn

Ajar anda cara menggunting 'alpaca' langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

PHPz

Oct 12, 2023 pm 06:29 PM

projekPemangkasan model besarllm-shearing

Apakah kesan pemotongan rambut alpaka model besar Llama 2? Hari ini, pasukan Chen Danqi dari Princeton University mencadangkan kaedah pemangkasan model besar yang dipanggil LLM-Shearing, yang boleh mencapai prestasi yang lebih baik daripada model saiz yang sama dengan jumlah pengiraan dan kos yang kecil.

Sejak kemunculan model bahasa besar (LLM), mereka telah mencapai hasil yang ketara dalam pelbagai tugas bahasa semula jadi. kesan. Walau bagaimanapun, model bahasa yang besar memerlukan sumber pengkomputeran yang besar untuk dilatih. Akibatnya, industri semakin berminat untuk membina model skala pertengahan yang sama berkuasa, dengan kemunculan LLaMA, MPT dan Falcon, yang membolehkan inferens yang cekap dan penalaan halus.

LLM dengan pelbagai saiz ini sesuai untuk kes penggunaan yang berbeza, tetapi setiap model individu dilatih dari awal (walaupun model parameter kecil 1 bilion) Ia masih memerlukan banyak sumber pengkomputeran, yang masih menjadi beban besar bagi kebanyakan institusi penyelidikan saintifik.

Jadi dalam artikel ini, pasukan Chen Danqi dari Princeton University cuba menyelesaikan masalah berikut: Bolehkah LLM sedia ada yang telah terlatih digunakan untuk membina lebih kecil, tujuan am LLM yang berdaya saing prestasi sambil memerlukan lebih sedikit pengiraan daripada latihan dari awal?

Penyelidik meneroka penggunaan pemangkasan berstruktur untuk mencapai matlamat mereka. Masalahnya di sini ialah untuk LLM tujuan umum, model yang dipangkas akan mengalami kemerosotan prestasi, terutamanya jika tiada pelaburan pengiraan yang ketara selepas pemangkasan. Kaedah pemangkasan cekap yang mereka gunakan boleh digunakan untuk membangunkan LLM yang lebih kecil tetapi masih berdaya saing prestasi, dan latihan memerlukan usaha pengiraan yang jauh lebih sedikit daripada latihan dari awal.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Alamat kertas: https://arxiv.org/abs/2310.06694#🎜🎜🎜

Sebelum memangkas LLM, para penyelidik mengenal pasti dua cabaran teknikal utama, Pertama, bagaimana untuk menentukan struktur pemangkasan akhir dengan prestasi yang kuat dan penaakulan yang cekap? Teknologi pemangkasan berstruktur semasa LLM tidak mempunyai struktur sasaran yang ditentukan, menyebabkan prestasi yang tidak memuaskan dan kelajuan inferens model yang dipangkas kedua, bagaimana untuk meneruskan pra-latihan model yang dipangkas untuk mencapai prestasi yang diharapkan? Mereka mendapati bahawa latihan dengan data pra-latihan mentah menghasilkan pengurangan kerugian yang berbeza di seluruh domain berbanding dengan melatih model dari awal.

Sebagai tindak balas kepada dua cabaran ini, penyelidik mencadangkan algoritma

"LLM - ricih"

. Algoritma pemangkasan novel ini, yang dipanggil "pencantasan berstruktur terarah," memangkas model sumber kepada seni bina sasaran yang ditentukan, yang ditentukan oleh konfigurasi model pra-latihan sedia ada. Mereka menunjukkan bahawa kaedah pemangkasan mencari substruktur dalam model sumber dan memaksimumkan prestasi di bawah kekangan sumber. Di samping itu, algoritma pemuatan kelompok dinamik direka bentuk, yang boleh memuatkan data latihan setiap domain mengikut perkadaran mengikut kadar pengurangan kerugian, dengan itu menggunakan data dengan cekap dan mempercepatkan peningkatan prestasi keseluruhan.

Akhir sekali, penyelidik mencantas model LLaMA2-7B kepada dua LLM yang lebih kecil, iaitu Sheared-LLaMA-1.3B dan Sheared -LLaMA-2.7B mengesahkan keberkesanan pendekatannya.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing Mereka hanya menggunakan 50 bilion token (iaitu 5% daripada bajet pra-latihan OpenLLaMA) untuk memangkas dan meneruskan pra-latihan, tetapi untuk 11 wakil Kedua-dua model masih mengatasi prestasi LLM popular lain yang mempunyai saiz yang serupa, termasuk Pythia, INCITE dan OpenLLaMA, untuk tugasan hiliran seperti pengetahuan am, pemahaman bacaan dan pengetahuan dunia, serta penalaan arahan terjana terbuka.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing Tetapi harus disebutkan bahawa apabila kertas ini mengeluarkan Sheared-LLaMA-3B, rekod model sumber terbuka 3B terkuat telah diambil oleh StableLM - Rehat 3B.

Selain itu, jejak prestasi tugasan hiliran menunjukkan bahawa menggunakan lebih banyak token untuk terus melatih model yang dipangkas akan membawa manfaat yang lebih besar. Para penyelidik hanya bereksperimen dengan model sehingga 7 bilion parameter, tetapi ricih LLM adalah sangat umum dan boleh diperluaskan kepada model bahasa besar dalam sebarang saiz dalam kerja akan datang.

Pengenalan kaedah

#🎜🎜🎜🎜🎜🎜🎜🎜 Memandangkan model besar M_S (model sumber) sedia ada, matlamat kertas kerja ini adalah untuk mengkaji cara menjana model M_T (model sasaran) yang lebih kecil dan kukuh dengan berkesan. Kajian itu percaya bahawa ini memerlukan dua peringkat untuk diselesaikan:

Peringkat pertama prunes M_S kepada M_T, walaupun Ini mengurangkan bilangan parameter, tetapi tidak dapat tidak membawa kepada kemerosotan prestasi;

pemangkasan berstruktur

Pemangkasan berstruktur boleh mengalih keluar sejumlah besar parameter model, dengan itu mencapai kesan memampatkan model dan mempercepatkan inferens. Walau bagaimanapun, kaedah pemangkasan berstruktur sedia ada boleh menyebabkan model menyimpang daripada konfigurasi seni bina konvensional. Sebagai contoh, kaedah CoFiPruning menghasilkan model dengan konfigurasi lapisan tidak seragam, yang menimbulkan overhed inferens tambahan berbanding konfigurasi lapisan bersatu standard.

Artikel ini memanjangkan CoFiPruning untuk membenarkan pemangkasan model sumber kepada sebarang konfigurasi sasaran yang ditentukan. Sebagai contoh, artikel ini menggunakan seni bina INCITE-Base-3B sebagai struktur sasaran apabila menjana model 2.7B.

Selain itu, artikel ini juga mempelajari set topeng pemangkasan (topeng pemangkasan) pada parameter model kebutiran yang berbeza Pembolehubah topeng adalah seperti berikut:

Setiap pembolehubah topeng mengawal sama ada untuk memangkas atau mengekalkan substruktur yang berkaitan. Sebagai contoh, jika z^layer yang sepadan= 0, lapisan ini perlu dipadamkan. Rajah 2 di bawah menggambarkan cara topeng pemangkasan mengawal struktur yang dipangkas.

Selepas pemangkasan, kertas kerja ini memuktamadkan seni bina yang dipangkas dengan mengekalkan komponen pemarkahan tertinggi yang dikaitkan dengan pembolehubah topeng dalam setiap substruktur, Dan teruskan pra-latihan model cantasan menggunakan objektif pemodelan bahasa.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

pemuatan pukal dinamik

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

#🎜#

#🎜##🎜 #Kajian ini percaya bahawa adalah perlu untuk menjalankan latihan pra-latihan yang meluas bagi model pemangkasan untuk memulihkan prestasi model.

Diinspirasikan oleh penyelidikan lain, kertas kerja ini mencadangkan algoritma yang lebih cekap, pemuatan kelompok dinamik, yang hanya boleh dilaraskan secara dinamik berdasarkan nisbah domain prestasi model. Algoritma adalah seperti berikut:

Eksperimen dan keputusan

#🎜#
#🎜##🎜##🎜 🎜🎜#

Konfigurasi model: Artikel ini menggunakan model LLaMA2-7B sebagai model sumber, dan kemudian menjalankan eksperimen pemangkasan berstruktur Mereka memampatkan LLaMA2-7B kepada dua saiz sasaran yang lebih kecil iaitu 2.7 B dan 1.3B, dan kemudian. dipangkas Prestasi model dibandingkan dengan model saiz yang sama, termasuk OPT-1.3B, Pythia-1.4B, OPT-2.7B, Pythia-2.8B, INCITE-Base-3B, OpenLLaMA-3B-v1, OpenLLaMA- 3B-v2 . Jadual 8 meringkaskan butiran seni bina model untuk semua model ini.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Data: Memandangkan data latihan LLaMA2 tidak boleh diakses secara terbuka, artikel ini menggunakan set data RedPajama. Jadual 1 menyediakan data pra-latihan yang digunakan oleh model kertas ini dan model garis dasar.

Latihan: Para penyelidik menggunakan sehingga 16 GPU Nvidia A100 (80GB) dalam semua eksperimen.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing SHEARED-LLAMA lebih baik dari saiz LM yang sama

#🎟#🎜🎜🎜🎜 # 🎜🎜#

Makalah ini menunjukkan bahawa Sheared-LLaMA dengan ketara mengatasi LLM sedia ada dengan saiz yang serupa sambil menggunakan hanya sebahagian kecil daripada belanjawan pengiraan untuk melatih model ini dari awal.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Tugas hiliran: Jadual 2 menunjukkan prestasi sifar dan beberapa pukulan Sheared-LLaMA dan model pra-latihan sedia ada dengan saiz yang serupa pada tugas hiliran prestasi.

Penalaan Arahan: Seperti yang ditunjukkan dalam Rajah 3, Sheared-LLaMA yang ditala arahan mencapai kadar kemenangan yang lebih tinggi berbanding dengan semua model pra-latihan lain pada skala yang sama.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Rajah 4 menunjukkan bahawa model INCITEBase-3B bermula dengan ketepatan yang lebih tinggi, tetapi tahap prestasinya menurun semasa proses pra-latihan yang sedang berjalan.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Analisis

Akhir sekali, pengkaji menganalisis kelebihan kaedah ini.

Keberkesanan pemuatan kelompok dinamik

Antaranya, penyelidik menganalisis keberkesanan pemuatan kelompok dinamik daripada tiga aspek berikut: (1) Kehilangan data LM akhir merentas domain, untuk (2 ) setiap domain sepanjang proses latihan, (3) prestasi tugas hiliran. Hasilnya adalah berdasarkan algoritma Sheared-LaMA-1.3B.

Perbezaan kerugian merentas domain. Tujuan pemuatan kelompok dinamik adalah untuk mengimbangi kadar pengurangan kerugian bagi setiap domain supaya kerugian mencapai nilai rujukan dalam masa yang lebih kurang sama. Perbezaan antara kehilangan model (pemuatan kelompok asal dan pemuatan kelompok dinamik) dan kehilangan rujukan diplot dalam Rajah 5. Sebaliknya, pemuatan kelompok dinamik mengurangkan kerugian secara sekata dan perbezaan dalam kerugian merentas domain juga sangat serupa, yang menunjukkan bahawa data Penggunaan yang lebih cekap.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Penggunaan data. Jadual 3 membandingkan perkadaran data mentah RedPajama dan penggunaan data domain yang dimuatkan secara dinamik (Rajah 7 menunjukkan perubahan dalam pemberat domain sepanjang proses latihan). Pemuatan pukal dinamik meningkatkan berat domain Buku dan C4 berbanding domain lain, menunjukkan bahawa domain ini lebih sukar untuk dipulihkan daripada model yang dipangkas.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Prestasi hiliran. Seperti yang ditunjukkan dalam Rajah 6, model pemangkasan yang dilatih menggunakan pemuatan kelompok dinamik mencapai prestasi hiliran yang lebih baik berbanding model yang dilatih pada pengedaran RedPajama asal. Ini menunjukkan bahawa pengurangan kerugian yang lebih seimbang yang disediakan oleh pemuatan kelompok dinamik boleh meningkatkan prestasi hiliran.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Perbandingan dengan kaedah pemangkasan lain

Selain itu, penyelidik membandingkan kaedah ricih LLM dengan kaedah pemangkasan lain dan melaporkan kekeliruan pengesahan, yang merupakan ukuran keupayaan model keseluruhan sebagai penunjuk yang kuat.

Disebabkan oleh pengehadan pengiraan, eksperimen berikut mengawal jumlah belanjawan pengiraan semua kaedah yang dibandingkan dan bukannya menjalankan setiap kaedah hingga akhir.

Seperti yang ditunjukkan dalam Jadual 4, di bawah sparsity yang sama, hasil inferens model pemangkasan sasaran dalam artikel ini adalah lebih tinggi daripada model CoFiPruning pemangkasan tidak seragam, tetapi kebingungannya lebih tinggi sedikit.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Analisis lain

Jadual 5 menunjukkan bahawa meningkatkan overhed pemangkasan boleh terus meningkatkan kebingungan sambil mengawal jumlah token. Walau bagaimanapun, kerana pemangkasan adalah lebih mahal daripada pra-latihan berterusan, para penyelidik memperuntukkan token 0.4B untuk pemangkasan.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Ajar anda cara menggunting 'alpaca' langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Memasak Inovasi: Bagaimana Kecerdasan Buatan Mengubah Perkhidmatan MakananApr 12, 2025 pm 12:09 PM

AI Menambah Penyediaan Makanan Walaupun masih dalam penggunaan baru, sistem AI semakin digunakan dalam penyediaan makanan. Robot yang didorong oleh AI digunakan di dapur untuk mengautomasikan tugas penyediaan makanan, seperti membuang burger, membuat pizza, atau memasang SA

Panduan Komprehensif mengenai Python Namespaces & Variable ScopesApr 12, 2025 pm 12:00 PM

Pengenalan Memahami ruang nama, skop, dan tingkah laku pembolehubah dalam fungsi Python adalah penting untuk menulis dengan cekap dan mengelakkan kesilapan runtime atau pengecualian. Dalam artikel ini, kami akan menyelidiki pelbagai ASP

Panduan Komprehensif untuk Model Bahasa Visi (VLMS)Apr 12, 2025 am 11:58 AM

Pengenalan Bayangkan berjalan melalui galeri seni, dikelilingi oleh lukisan dan patung yang terang. Sekarang, bagaimana jika anda boleh bertanya setiap soalan dan mendapatkan jawapan yang bermakna? Anda mungkin bertanya, "Kisah apa yang anda ceritakan?

MediaTek meningkatkan barisan premium dengan Kompanio Ultra dan Dimensity 9400Apr 12, 2025 am 11:52 AM

Meneruskan irama produk, bulan ini MediaTek telah membuat satu siri pengumuman, termasuk Kompanio Ultra dan Dimensity 9400 yang baru. Produk ini mengisi bahagian perniagaan MediaTek yang lebih tradisional, termasuk cip untuk telefon pintar

Minggu ini di AI: Walmart menetapkan trend fesyen sebelum mereka pernah berlakuApr 12, 2025 am 11:51 AM

#1 Google melancarkan Agent2Agent Cerita: Ia Isnin pagi. Sebagai perekrut berkuasa AI, anda bekerja lebih pintar, tidak lebih sukar. Anda log masuk ke papan pemuka syarikat anda di telefon anda. Ia memberitahu anda tiga peranan kritikal telah diperolehi, dijadualkan, dan dijadualkan untuk

AI Generatif Bertemu PsychobabbleApr 12, 2025 am 11:50 AM

Saya akan meneka bahawa anda mesti. Kita semua seolah -olah tahu bahawa psychobabble terdiri daripada pelbagai perbualan yang menggabungkan pelbagai terminologi psikologi dan sering akhirnya menjadi tidak dapat difahami atau sepenuhnya tidak masuk akal. Semua yang anda perlu lakukan untuk memuntahkan fo

Prototaip: saintis menjadikan kertas menjadi plastikApr 12, 2025 am 11:49 AM

Hanya 9.5% plastik yang dihasilkan pada tahun 2022 dibuat daripada bahan kitar semula, menurut satu kajian baru yang diterbitkan minggu ini. Sementara itu, plastik terus menumpuk di tapak pelupusan sampah -dan ekosistem -sekitar dunia. Tetapi bantuan sedang dalam perjalanan. Pasukan Engin

Kebangkitan Penganalisis AI: Mengapa ini boleh menjadi pekerjaan yang paling penting dalam Revolusi AIApr 12, 2025 am 11:41 AM

Perbualan baru -baru ini dengan Andy Macmillan, Ketua Pegawai Eksekutif Platform Analytics Enterprise terkemuka Alteryx, menonjolkan peranan kritikal namun kurang dihargai ini dalam revolusi AI. Seperti yang dijelaskan oleh Macmillan, jurang antara data perniagaan mentah dan maklumat siap sedia

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7469

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi