Rumah >Peranti teknologi >AI >Jadikan model besar 'slim down' sebanyak 90%! Universiti Tsinghua & Institut Teknologi Harbin mencadangkan penyelesaian pemampatan yang melampau: kuantiti 1-bit, sambil mengekalkan 83% daripada kapasiti

Jadikan model besar 'slim down' sebanyak 90%! Universiti Tsinghua & Institut Teknologi Harbin mencadangkan penyelesaian pemampatan yang melampau: kuantiti 1-bit, sambil mengekalkan 83% daripada kapasiti

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan: 2024-03-11 12:04:151085semak imbas

Kuantiti, pemangkasan dan operasi mampatan lain pada model besar adalah bahagian yang paling biasa dalam penggunaan.

Namun, berapa besar had ini?

Kajian bersama oleh Universiti Tsinghua dan Institut Teknologi Harbin memberikan jawapan:

90%.

Mereka mencadangkan rangka kerja pemampatan ekstrem 1-bit model besar OneBit, yang buat pertama kalinya mencapai pemampatan berat model besar melebihi 90% dan mengekalkan kebanyakan (83%) keupayaan.

Boleh dikatakan bermain ialah "mahu dan mahu"~

Jadikan model besar slim down sebanyak 90%! Universiti Tsinghua & Institut Teknologi Harbin mencadangkan penyelesaian pemampatan yang melampau: kuantiti 1-bit, sambil mengekalkan 83% daripada kapasiti

Jom tengok.

Kaedah pengkuantitian 1-bit untuk model besar ada di sini

Dari pemangkasan dan pengkuantitian kepada penyulingan pengetahuan dan penguraian berat peringkat rendah, model besar sudah boleh memampatkan satu perempat berat dengan hampir tiada kerugian.

Kuantiti berat biasanya menukar parameter model besar kepada perwakilan lebar bit yang rendah. Ini boleh dicapai dengan mengubah model terlatih sepenuhnya (PTQ) atau memperkenalkan langkah pengkuantitian semasa latihan (QAT). Pendekatan ini membantu mengurangkan keperluan pengiraan dan penyimpanan model, dengan itu meningkatkan kecekapan dan prestasi model. Dengan mengukur pemberat, saiz model boleh dikurangkan dengan ketara, menjadikannya lebih sesuai untuk digunakan dalam persekitaran terhad sumber, sementara juga

Walau bagaimanapun, kaedah pengkuantitian sedia ada menghadapi kehilangan prestasi teruk di bawah 3bit, terutamanya disebabkan oleh:

kaedah perwakilan lebar bit rendah parameter sedia ada mempunyai kehilangan ketepatan yang serius pada 1 bit. Apabila parameter berdasarkan kaedah Bulat-Ke-Terdekat dinyatakan dalam 1 bit, pekali skala yang ditukar s dan titik sifar z akan kehilangan makna praktikalnya.
Struktur model 1-bit sedia ada tidak mempertimbangkan sepenuhnya kepentingan ketepatan titik terapung. Kekurangan parameter titik terapung boleh menjejaskan kestabilan proses pengiraan model dan secara serius mengurangkan keupayaan pembelajarannya sendiri.

Untuk mengatasi halangan pengkuantitian lebar bit ultra-rendah 1-bit, penulis mencadangkan rangka kerja model 1-bit baharu: OneBit, yang merangkumi struktur lapisan linear 1-bit baharu, kaedah permulaan parameter berasaskan SVID dan pembelajaran pemindahan mendalam berdasarkan penyulingan pengetahuan sedar kuantisasi .

Kaedah pengkuantitian model 1-bit baharu ini boleh mengekalkan kebanyakan keupayaan model asal dengan julat mampatan yang besar, pendudukan ruang yang sangat rendah dan kos pengkomputeran yang terhad. Ini sangat penting untuk penggunaan model besar pada PC dan juga telefon pintar.

Rangka Kerja Keseluruhan

Rangka kerja OneBit secara amnya boleh merangkumi: struktur model 1-bit yang baru direka bentuk, kaedah memulakan parameter model terkuantiti berdasarkan model asal dan migrasi keupayaan mendalam berdasarkan penyulingan pengetahuan.

Struktur model 1-bit yang direka bentuk baharu ini boleh mengatasi masalah kehilangan ketepatan yang serius dalam pengkuantitian 1-bit dalam kerja pengkuantitian sebelumnya, dan menunjukkan kestabilan yang sangat baik semasa latihan dan penghijrahan.

Kaedah permulaan model kuantitatif boleh menetapkan titik permulaan yang lebih baik untuk penyulingan pengetahuan, mempercepatkan penumpuan dan mencapai kesan pemindahan keupayaan yang lebih baik.

1. Struktur model 1-bit

1bit memerlukan setiap nilai berat hanya boleh diwakili oleh 1 bit, jadi paling banyak hanya dua keadaan yang mungkin.

Penulis memilih ±1 sebagai dua keadaan ini Kelebihannya ialah ia mewakili dua simbol dalam sistem digital, mempunyai fungsi yang lebih lengkap, dan boleh diperolehi dengan mudah melalui fungsi Sign(·).

Struktur model 1-bit pengarang dicapai dengan menggantikan semua lapisan linear model FP16 (kecuali lapisan benam dan lm_head) dengan lapisan linear 1-bit.

Selain berat 1-bit yang diperoleh melalui fungsi Sign(·), lapisan linear 1-bit di sini juga termasuk dua komponen utama lain—vektor nilai dengan ketepatan FP16.

△Perbandingan lapisan linear FP16 dan lapisan linear OneBit

Reka bentuk ini bukan sahaja mengekalkan kedudukan tinggi matriks berat asal, tetapi juga menyediakan ketepatan titik terapung yang diperlukan melalui vektor nilai, yang penting untuk memastikan kestabilan dan pembelajaran berkualiti tinggi Proses ini sangat bermakna.

Seperti yang anda lihat dari rajah di atas, hanya vektor nilai g dan h kekal dalam format FP16, manakala matriks berat semuanya terdiri daripada ±1.

Pengarang boleh melihat keupayaan pemampatan OneBit melalui contoh.

Dengan mengandaikan untuk memampatkan lapisan linear 40964096 FP16, OneBit memerlukan matriks 1-bit 40964096 dan dua vektor nilai 4096*1 FP16.

Jumlah bilangan bit ialah 16,908,288, jumlah parameter ialah 16,785,408, dan setiap parameter hanya menduduki kira-kira 1.0073 bit secara purata.

Julat mampatan sedemikian tidak pernah berlaku sebelum ini dan boleh dikatakan sebagai LLM 1-bit yang benar.

2. Inisialisasi parameter dan pembelajaran pemindahan

Untuk menggunakan model asal yang terlatih sepenuhnya untuk memulakan model terkuantisasi dengan lebih baik, penulis mencadangkan kaedah penguraian matriks parameter baharu yang dipanggil Penguraian "matriks bebas nilai" (SVID) ".

Kaedah penguraian matriks ini memisahkan simbol dan nilai mutlak, dan melakukan penghampiran kedudukan-1 pada nilai mutlak Kaedahnya untuk menganggarkan parameter matriks asal boleh dinyatakan sebagai:

Penghampiran kedudukan-1 boleh dicapai dengan kaedah pemfaktoran matriks biasa, seperti penguraian nilai tunggal (SVD) dan pemfaktoran matriks bukan negatif (NMF).

Pengarang secara matematik menunjukkan bahawa kaedah SVID ini boleh memadankan rangka kerja model 1-bit dengan menukar susunan operasi, dengan itu mencapai pemulaan parameter.

Selain itu, sumbangan matriks simbolik untuk menghampiri matriks asal semasa proses penguraian juga telah terbukti. Lihat kertas untuk butiran.

Pengarang percaya bahawa cara yang berkesan untuk menyelesaikan pengkuantitian lebar bit ultra-rendah bagi model besar mungkin latihan QAT yang menyedari pengkuantitian.

Oleh itu, selepas SVID memberikan titik permulaan parameter model kuantitatif, penulis menggunakan model asal sebagai model guru dan belajar daripadanya melalui penyulingan pengetahuan.

Secara khusus, model pelajar terutamanya menerima bimbingan daripada logit dan keadaan tersembunyi model guru.

Semasa latihan, nilai vektor nilai dan matriks parameter akan dikemas kini, dan semasa penggunaan, matriks parameter 1-bit terkuantisasi boleh digunakan terus untuk pengiraan.

Lebih besar model, lebih baik kesannya

Garis dasar yang dipilih oleh pengarang ialah FP16 Transformer, GPTQ, LLM-QAT dan OmniQuant.

Tiga yang terakhir adalah semua garis dasar kuat klasik dalam bidang kuantifikasi, terutamanya OmniQuant, yang merupakan kaedah pengkuantitian 2-bit terkuat sejak pengarang.

Memandangkan pada masa ini tiada penyelidikan tentang pengkuantitian berat 1-bit, pengarang hanya menggunakan pengkuantitian berat 1-bit untuk rangka kerja OneBit, dan menggunakan tetapan pengkuantitian 2-bit untuk kaedah lain.

Untuk data suling, penulis mengikuti LLM-QAT dan menggunakan pensampelan kendiri model guru untuk menjana data.

Pengarang menggunakan model saiz berbeza dari 1.3B hingga 13B, OPT dan LLaMA-1/2 dalam siri berbeza untuk membuktikan keberkesanan OneBit. Dari segi penunjuk penilaian, kebingungan set pengesahan dan ketepatan pukulan sifar penaakulan akal digunakan. Lihat kertas untuk butiran.

Jadual di atas menunjukkan kelebihan OneBit berbanding kaedah lain dalam kuantisasi 1-bit. Perlu diperhatikan bahawa kesan OneBit cenderung menjadi lebih baik apabila model lebih besar.

Apabila saiz model bertambah, model terkuantiti OneBit mengurangkan kebingungan lebih daripada model FP16.

Berikut ialah penaakulan akal, pengetahuan dunia dan pendudukan angkasa lepas beberapa model kecil yang berbeza:

Pengarang juga membandingkan saiz dan keupayaan sebenar beberapa jenis model kecil yang berbeza.

Pengarang mendapati bahawa walaupun OneBit-7B mempunyai lebar bit purata terkecil, mengambil ruang terkecil, dan memerlukan langkah latihan yang agak sedikit, ia tidak kalah dengan model lain dari segi keupayaan penaakulan akal.

Pada masa yang sama, penulis juga mendapati model OneBit-7B mempunyai pengetahuan yang serius melupakan dalam bidang sains sosial.

△Perbandingan lapisan linear FP16 dan lapisan linear OneBit Contoh penjanaan teks selepas penalaan halus arahan OneBit-7B

Rajah di atas juga menunjukkan contoh penjanaan teks selepas penalaan halus OneBit- arahan 7B. Dapat dilihat bahawa OneBit-7B telah mendapat manfaat secara berkesan daripada peningkatan keupayaan peringkat SFT dan boleh menjana teks dengan agak lancar, walaupun jumlah parameter hanya 1.3GB (setanding dengan model 0.6B FP16). Secara keseluruhan, OneBit-7B menunjukkan nilai aplikasi praktikalnya.

Analisis dan Perbincangan

Pengarang menunjukkan nisbah mampatan model OneBit kepada LLaMA dengan saiz yang berbeza Dapat dilihat bahawa nisbah mampatan OneBit kepada model melebihi 90%.

Khususnya, apabila model meningkat, nisbah mampatan OneBit menjadi lebih tinggi.

Ini menunjukkan kelebihan kaedah pengarang pada model yang lebih besar: keuntungan marginal yang lebih besar (kebingungan) pada nisbah mampatan yang lebih tinggi. Tambahan pula, pendekatan pengarang mencapai pertukaran yang baik antara saiz dan prestasi.
Jadikan model besar slim down sebanyak 90%! Universiti Tsinghua & Institut Teknologi Harbin mencadangkan penyelesaian pemampatan yang melampau: kuantiti 1-bit, sambil mengekalkan 83% daripada kapasiti

Model kuantitatif 1-bit mempunyai kelebihan pengiraan dan sangat penting. Perwakilan binari tulen parameter bukan sahaja dapat menjimatkan banyak ruang, tetapi juga mengurangkan keperluan perkakasan pendaraban matriks.

Pendaraban elemen pendaraban matriks dalam model berketepatan tinggi boleh ditukar kepada operasi bit yang cekap produk Matriks boleh disiapkan dengan hanya tugasan dan penambahan bit, yang mempunyai prospek aplikasi yang hebat.

Selain itu, kaedah pengarang mengekalkan keupayaan pembelajaran stabil yang sangat baik semasa proses latihan.

Malah, masalah ketidakstabilan, kepekaan terhadap hiperparameter dan kesukaran penumpuan latihan rangkaian binari sentiasa dibimbangkan oleh penyelidik.

Pengarang menganalisis kepentingan vektor nilai ketepatan tinggi dalam menggalakkan penumpuan model yang stabil.

Kerja sebelum ini telah mencadangkan seni bina model 1-bit dan menggunakannya untuk melatih model dari awal (seperti BitNet [1]), tetapi ia sensitif kepada hiperparameter dan sukar untuk memindahkan pembelajaran daripada model berketepatan tinggi terlatih sepenuhnya. Penulis juga mencuba prestasi BitNet dalam penyulingan pengetahuan dan mendapati latihannya tidak cukup stabil.

Ringkasan

Pengarang mencadangkan struktur model dan kaedah permulaan parameter yang sepadan untuk pengkuantitian berat 1-bit.

Percubaan meluas pada model pelbagai saiz dan siri menunjukkan bahawa OneBit mempunyai kelebihan yang jelas pada garis dasar yang kukuh dan mencapai kompromi yang baik antara saiz model dan prestasi.

Selain itu, penulis menganalisis lagi keupayaan dan prospek model pengkuantitian bit yang sangat rendah ini dan memberikan panduan untuk penyelidikan masa depan.

Alamat kertas: https://arxiv.org/pdf/2402.11295.pdf

Atas ialah kandungan terperinci Jadikan model besar 'slim down' sebanyak 90%! Universiti Tsinghua & Institut Teknologi Harbin mencadangkan penyelesaian pemampatan yang melampau: kuantiti 1-bit, sambil mengekalkan 83% daripada kapasiti. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 transformer https llama

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Cara mengurus AI generatifArtikel seterusnya：Cara mengurus AI generatif

Artikel berkaitan

Lihat lagi