


Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Apabila model bahasa besar pembelajaran mendalam menjadi semakin popular, model bahasa besar menjadi lebih besar dan lebih besar, menjadikan kos inferens mereka juga meningkat. Kuantifikasi model telah menjadi topik penyelidikan yang popular.
Baru-baru ini, ByteDance telah melancarkan idea kuantifikasi baharu, meninggalkan paradigma kuantifikasi tradisional dan memodelkan tugas kuantifikasi daripada perspektif pengoptimuman matematik. Artikel itu disiarkan di arXiv, dan kod itu adalah sumber terbuka Semua hasil dalam artikel boleh diterbitkan semula dengan satu klik. Idea kuantifikasi ini adalah berdasarkan pengoptimuman matematik, memodelkan tugasan kuantifikasi dari perspektif pengoptimuman matematik, dan mencari penyelesaian optimum dengan memaksimumkan fungsi objektif atau meminimumkan fungsi kehilangan. Idea ini telah mencapai keputusan yang baik dalam eksperimen dan mencapai keputusan yang memuaskan.
Pautan kertas: https://arxiv.org/abs/2404.12759
Pautan projek: https://github.com/bytedance/decoupleQ
- : https://github.com/bytedance/decoupleQ
: /github.com/NVIDIA/TensorRT-LLM/pull/1568
1. Latar BelakangPerkembangan pesat teknologi berskala besar telah menjadikan kos inferens semakin tinggi. Kuantifikasi model, sebagai penyelesaian teknikal untuk mengurangkan kos inferens, telah menerima lebih banyak perhatian dan penyelidikan. Walau bagaimanapun, di bawah paradigma pengkuantitian tradisional, ketepatan model menurun dengan cepat pada bit yang sangat rendah. Berdasarkan ini, penulis mencadangkan idea kuantifikasi baharu, menyahganding parameter model menjadi bahagian integer dan bahagian titik terapung, dan memodelkan tugasan kuantifikasi dari perspektif pengoptimuman matematik, supaya model masih boleh mengekalkan ketepatan yang Lebih Tinggi. Kelebihan ini adalah jelas. Kita tidak perlu lagi menumpukan pada isu khusus kuantisasi, seperti cara menangani saluran sensitif, cara menangani outlier, dll. Sebaliknya, kita hanya perlu memodelkan masalah kuantifikasi secara matematik, mencari satu fungsi objektif pengoptimuman yang sesuai, dan kemudian untuk menyelesaikan fungsi ini.
2. Pengkuantitian tradisionaldi mana,
ialah pemberat titik terapung model sebelum pengkuantitian dan skala penjelmaan; titik sifar; α dan β ialah sempadan atas dan bawah bagi julat perwakilan integer Contohnya, untuk kuantisasi int4, α = -8, β = 7 boleh diambil; integer. Mengenai nilai s dan z, secara amnya, untuk pengkuantitian asimetri, kita boleh mengambil:
akan dipetakan secara linear ke julat selang
.Dalam kuantisasi songsang, formula berikut biasanya digunakan:
Dalam skema kuantisasi tradisional ini, kita perlu memberi perhatian kepada banyak isu terperinci yang unik untuk kuantisasi Sebagai contoh, untuk saluran sensitif, kami mempunyai kaedah pemprosesan saluran sensitif ; Untuk outlier, kami mempunyai kaedah pemprosesan outlier. Paradigma pemprosesan untuk merawat sakit kepala dan merawat sakit kepala ini sukar untuk diatasi dengan senario perniagaan yang kompleks dan sentiasa berubah. Penyelidik Bytedance cuba mengabstrakkan isu ini dan melihat isu kuantifikasi dari perspektif makro. Kita hanya perlu mewujudkan fungsi objektif pengoptimuman abstrak dan kemudian menyelesaikan fungsi objektif ini.
🎜3.decoupleQ🎜🎜Memerhati peranan persamaan (1)~(3) dalam kuantifikasi, jika kita mengubah pemikiran kita, kita akan mendapati bahawa kita sebenarnya tidak perlu mengetahui persamaan (1) dan (2). Selepas kami mengukur model besar dan menyampaikannya kepada pelajar enjin hiliran, kami hanya perlu mengetahui dan (s,z) dalam persamaan (3). Dalam erti kata lain, (s,z) dalam persamaan (3) boleh dianggap sebagai pekali bagi transformasi afin biasa, dan tidak perlu mengekalkan maknanya dalam persamaan (2). Pekali transformasi affine boleh diperolehi melalui kaedah pengoptimuman matematik.
Menggali lebih lanjut ke dalam (3), kita boleh memisahkan parameter model besar ke dalam bahagian integer dan bahagian titik terapung (s,z). Selepas penyahgandingan dengan cara ini, proses pengkuantitian model boleh dianggap sebagai proses menyelesaikan bahagian integer
dan bahagian titik terapung (s,z) model. Kami boleh mengoptimumkan penyelesaian secara bergilir-gilir. Untuk tujuan ini, fungsi objektif pengoptimuman dan kekangannya mesti ditentukan.
Untuk lapisan linear, kita boleh membina fungsi objektif pengoptimuman berikut:
di mana, ialah input lapisan,
ialah matriks simetri (jika lajur X bukan semua sifar, maka H ialah matriks simetri pasti positif).
Secara umumnya, untuk meningkatkan ketepatan pengkuantitian, kita boleh menggunakan pengkuantitian setiap saluran pada berat model. Dalam pengkuantitian setiap saluran, apabila mengoptimumkan persamaan (4), setiap lajur dioptimumkan secara bebas. Jadi kita hanya perlu fokus pada salah satu lajur.
Pada ketika ini, matlamat pengoptimuman boleh ditulis seperti berikut: (Demi kesederhanaan notasi, simbol ditakrifkan semula dalam artikel):
di mana fungsi objektif pengoptimuman adalah
, w ialah lajur tertentu
, dan b berada dalam
Malah, fungsi objektif pengoptimuman (6) adalah konsisten sepenuhnya dengan (4), ialah proses pengkuantitian songsang.
Menukar masalah kuantitatif kepada masalah pengoptimuman matematik dalam bentuk (5) adalah kunci untuk membezakan decoupleQ daripada kertas kuantitatif tradisional. Transformasi ini membolehkan kami hanya menumpukan pada penyelesaian persamaan (5) dan tidak lagi perlu berurusan dengan minutiae pengkuantitian itu sendiri, seperti outlier, dsb.
Penyelesaian persamaan (5) bukanlah mudah kerana terdapat kekangan pada , terutamanya kekangan bukan cembung
. Dalam kertas kerja, penulis memberikan idea penyelesaian alternatif, iaitu, setelah mendapat pemulaan yang baik tentang (s,z) dan w, selesaikan secara berulang (s,z) dan w secara bergilir-gilir. Apabila menyelesaikan (s,z), perhatikan bahawa persamaan (5) ialah bentuk kuadratik tidak terhad berkenaan dengan (s,z Anda boleh memperoleh secara langsung fungsi objektif dan membuat terbitan sifar untuk mendapatkan penyelesaian analisis. Apabila menyelesaikan w, pengarang menggunakan dua tahap penghampiran Penghampiran tahap pertama mempunyai penumpuan yang lebih tinggi, tetapi penyelesaiannya adalah perlahan untuk menyampel idea GPTQ [1], yang mempunyai penumpuan sedikit lebih lemah, tetapi penyelesaiannya adalah perlahan; lebih cepat.
Untuk meningkatkan lagi ketepatan model terkuantisasi, penulis menegaskan bahawa selain melakukan pengecilan mse pada peringkat lapisan, pengecilan mse juga boleh dilakukan pada peringkat blok, iaitu:
Dalam langkah ini, pengarang pada tahap blok pengubah, Selepas mengkuantisasi setiap lapisan linear, betulkan bahagian integernya dan perhalusi bahagian titik terapung (s, z) dan parameter yang berkaitan dengan norma lapisan. Keputusan eksperimen menunjukkan bahawa langkah penalaan halus ini boleh meningkatkan lagi ketepatan model.
4. Pelaksanaan operator W2
Untuk menyimpulkan model terkuantisasi, sokongan operator terkuantisasi diperlukan Tidak ada operator w2a16 siap sedia yang tersedia dalam industri ini. LLM Membangunkan inti Gemm cuda w2 untuk mencapai inferens yang cekap bagi model w2a16.
Model kuantisasi itu sendiri dimuatkan dan disimpan dalam memori video dalam bentuk berat 2-bit, jadi ia akan menduduki jumlah memori video yang agak kecil. Kernel cuda kami memuatkan berat 2-bit ke dalam daftar pada masa jalan, dan kemudian menggunakan arahan perkakasan untuk menukarnya dengan cekap ke dalam bentuk bf16 dan melaksanakan operasi gemm dengan pengaktifan. Oleh kerana senario kami terhad oleh kependaman, saiz kelompok dalam peringkat penjanaan adalah agak kecil Pada masa ini, pendaraban matriks dihadkan oleh akses memori berat Pelaksanaan ini akan mengurangkan jumlah akses memori dan meningkatkan prestasi model. Semasa proses pelaksanaan, carian algoritma dan SpiltK Parallel Reduce digabungkan untuk meningkatkan lagi prestasi model Mengikut ukuran sebenar, apabila saiz kumpulan=1, prestasi w2a16 Gemm pada kad L boleh dipertingkatkan sebanyak 1.4x-1.7x. berbanding w4a16.
Operator Pautan: https://github.com/nvidia/tensorrt-llm/pull/1568
5. , dan keputusan perbandingan dengan eksperimen sumber terbuka diberikan:
Keputusan percubaan dalaman ialah:
Dalam jadual ini, penulis menggunakan perkataan err rate (WER) untuk mengukur ketepatan ASR. Penulis cuba mengukur model kepada W2A16g64 menggunakan kaedah yang berbeza. Nilai bagi model titik terapung sebelum kuantisasi ialah 6.68%. model titik terapung sebelum kuantisasi dekat. Ia juga melaporkan masa yang diperlukan untuk kuantifikasi. Harga ketepatan kuantisasi yang tinggi ialah kuantisasi mengambil masa yang lama. Dalam perniagaan sebenar, selepas menggunakan decoupleQ untuk mengukur model, bahagian integer ditetapkan, dan set data berlabel digunakan untuk memperhalusi skala dan sifar, dan ketepatan model dipertingkatkan lagi.
Hasil eksperimen perbandingan sumber terbuka ialah:
Jadual ini ialah perbandingan hasil kuantitatif decoupleQ dan kaedah lain pada Llama-1/2. Perplexity (PPL) digunakan sebagai indeks penilaian. Ia boleh dilihat bahawa di bawah konfigurasi pengkuantitian yang sama, PPL deoucpleQ akan lebih rendah daripada kaedah lain pada kebanyakan masa.
6. Faedah Perniagaan
teknologi pengiraan decoupleQ kini digunakan secara meluas dalam jabatan suara ByteDance. Ia telah dilancarkan dalam model penjanaan pertuturan (Text-to-Speech), model pengecaman pertuturan (pengecaman pertuturan automatik), dsb., dan telah dilaksanakan dalam produk seperti Doubao, Feishu dan Douyin. Sebilangan besar perniagaan dalam talian menunjukkan bahawa berdasarkan kuantifikasi decoupleQ, ketepatan inferens W4A16 sepenuhnya setanding dengan inferens fp16/bf16, ketepatan W2A16 hanya lebih buruk sedikit daripada ketepatan fp16/bf16 (selepas bahagian titik terapung sft, ketepatan adalah pada tahap yang sama seperti fp16/bf16) ). Walaupun kertas itu hanya memperkenalkan kuantifikasi berat sahaja, dalam perniagaan sebenar, selepas berat dikira dengan baik, kuantifikasi pengaktifan boleh menjadi lebih mudah.
Berbanding dengan fp16, w8fp16, dan w4fp16, ia telah mencapai kesan pecutan yang baik dari segi pecutan perkakasan Dalam kelompok kecil, prestasi pendaraban matriks w2 adalah 5-6 kali lebih tinggi daripada fp16, dan 1.5-1.7 kali lebih tinggi daripada w. . Dari segi model perniagaan dalaman, w2fp16 mempunyai peningkatan prestasi sebanyak 3-5 kali berbanding dengan fp16, dan peningkatan prestasi sebanyak 1.25-1.4 kali berbanding w4fp16 Ia juga akan mengurangkan memori yang diduduki oleh berat model, memberikan memori yang lebih baik penggunaan untuk masa larian yang banyak.
7. Ringkasan dan Perbincangan
Dalam bahagian ringkasan dan perbincangan, penulis juga menunjukkan dua risiko yang ada pada kaedah decoupleQ pada masa ini:
to optimization quantitization kerugian sebelum dan selepas diminimumkan. Walau bagaimanapun, meminimumkan kehilangan L2 pada tahap lapisan atau tahap blok mungkin tidak semestinya mewakili ketepatan optimum model akhir 2 Dalam proses pengoptimuman persamaan (5) dan (7), apabila menyelesaikan dan (s,z. ), hanya sebahagian kecil daripada data penentukuran diselesaikan, yang menjadikan decoupleQ mudah untuk mengatasi data penentukuran.
Namun begitu, penulis juga menegaskan bahawa idea untuk memisahkan parameter model kepada bahagian integer dan bahagian titik terapung adalah sangat bermakna. Jika set data berlabel wujud, kami boleh membetulkan bahagian integer selepas pengiraan dan menggunakan set data berlabel untuk melatih (s, z) secara khusus untuk meningkatkan lagi ketepatan model. Ini bukan sahaja memastikan prestasi generalisasi model (diperoleh daripada bahagian integer tetap), tetapi juga boleh menggunakan keupayaannya pada subtugas tertentu (diperoleh daripada bahagian titik terapung yang ditala halus). Dalam perniagaan sebenar ByteDance, selepas versi model sebelumnya dikira dan diletakkan dalam talian, apabila versi seterusnya dikemas kini, hanya bahagian titik terapung model boleh dilatih.
References:
【1】 Elias Frantar, Saleh Ashkboos, Torsten Hoefler, dan Dan Alistarh.
【2】Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao dan Ping Luo Omniquant: Omnidirectional language model quantization arXiv:2308.13137, 2023
【3】Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang dan Song Han: Pengkuantitian berat arXiv. sedar pengaktifan. 2306.00978, 2023.
Atas ialah kandungan terperinci Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Istilah "tenaga kerja siap sedia" sering digunakan, tetapi apakah maksudnya dalam industri rantaian bekalan? Menurut Abe Eshkenazi, Ketua Pegawai Eksekutif Persatuan Pengurusan Rantaian Bekalan (ASCM), ia menandakan profesional yang mampu mengkritik

Revolusi AI yang terdesentralisasi secara senyap -senyap mendapat momentum. Jumaat ini di Austin, Texas, Sidang Kemuncak Endgame Bittensor menandakan momen penting, beralih ke desentralisasi AI (DEAI) dari teori kepada aplikasi praktikal. Tidak seperti iklan mewah

Perusahaan AI menghadapi cabaran integrasi data Penggunaan perusahaan AI menghadapi cabaran utama: sistem bangunan yang dapat mengekalkan ketepatan dan kepraktisan dengan terus belajar data perniagaan. Microservices NEMO menyelesaikan masalah ini dengan mewujudkan apa yang NVIDIA menggambarkan sebagai "Flywheel Data", yang membolehkan sistem AI tetap relevan melalui pendedahan berterusan kepada maklumat perusahaan dan interaksi pengguna. Toolkit yang baru dilancarkan ini mengandungi lima microservices utama: Nemo Customizer mengendalikan penalaan model bahasa yang besar dengan latihan yang lebih tinggi. NEMO Evaluator menyediakan penilaian ringkas model AI untuk tanda aras tersuai. Nemo Guardrails Melaksanakan Kawalan Keselamatan untuk mengekalkan pematuhan dan kesesuaian

AI: Masa Depan Seni dan Reka Bentuk Kecerdasan Buatan (AI) mengubah bidang seni dan reka bentuk dengan cara yang belum pernah terjadi sebelumnya, dan impaknya tidak lagi terhad kepada amatur, tetapi lebih mempengaruhi profesional. Skim karya seni dan reka bentuk yang dihasilkan oleh AI dengan cepat menggantikan imej dan pereka bahan tradisional dalam banyak aktiviti reka bentuk transaksional seperti pengiklanan, generasi imej media sosial dan reka bentuk web. Walau bagaimanapun, artis dan pereka profesional juga mendapati nilai praktikal AI. Mereka menggunakan AI sebagai alat tambahan untuk meneroka kemungkinan estetik baru, menggabungkan gaya yang berbeza, dan membuat kesan visual baru. AI membantu artis dan pereka mengautomasikan tugas berulang, mencadangkan elemen reka bentuk yang berbeza dan memberikan input kreatif. AI menyokong pemindahan gaya, iaitu menggunakan gaya gambar

Zoom, yang pada mulanya dikenali untuk platform persidangan video, memimpin revolusi tempat kerja dengan penggunaan inovatif AIS AI. Perbualan baru -baru ini dengan CTO Zoom, XD Huang, mendedahkan penglihatan yang bercita -cita tinggi syarikat itu. Menentukan Agentic AI Huang d

Adakah AI akan merevolusikan pendidikan? Soalan ini mendorong refleksi serius di kalangan pendidik dan pihak berkepentingan. Penyepaduan AI ke dalam pendidikan memberikan peluang dan cabaran. Sebagai Matthew Lynch dari Nota Edvocate Tech, Universit

Pembangunan penyelidikan dan teknologi saintifik di Amerika Syarikat mungkin menghadapi cabaran, mungkin disebabkan oleh pemotongan anggaran. Menurut Alam, bilangan saintis Amerika yang memohon pekerjaan di luar negara meningkat sebanyak 32% dari Januari hingga Mac 2025 berbanding dengan tempoh yang sama pada tahun 2024. Pungutan sebelumnya menunjukkan bahawa 75% penyelidik yang ditinjau sedang mempertimbangkan untuk mencari pekerjaan di Eropah dan Kanada. Beratus-ratus geran NIH dan NSF telah ditamatkan dalam beberapa bulan yang lalu, dengan geran baru NIH turun kira-kira $ 2.3 bilion tahun ini, setitik hampir satu pertiga. Cadangan belanjawan yang bocor menunjukkan bahawa pentadbiran Trump sedang mempertimbangkan untuk memotong belanjawan secara mendadak untuk institusi saintifik, dengan kemungkinan pengurangan sehingga 50%. Kegawatan dalam bidang penyelidikan asas juga telah menjejaskan salah satu kelebihan utama Amerika Syarikat: menarik bakat luar negara. 35

OpenAI melancarkan siri GPT-4.1 yang kuat: keluarga tiga model bahasa lanjutan yang direka untuk aplikasi dunia nyata. Lompat penting ini menawarkan masa tindak balas yang lebih cepat, pemahaman yang lebih baik, dan kos yang dikurangkan secara drastik berbanding t


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Penyesuai Pelayan SAP NetWeaver untuk Eclipse
Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

MinGW - GNU Minimalis untuk Windows
Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft
