Rumah >Peranti teknologi >AI >Kaedah latihan yang jarang untuk model besar dengan ketepatan yang tinggi dan penggunaan sumber yang rendah telah dijumpai.

Kaedah latihan yang jarang untuk model besar dengan ketepatan yang tinggi dan penggunaan sumber yang rendah telah dijumpai.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan: 2023-04-13 19:01:011540semak imbas

Baru-baru ini, kertas kerja Alibaba Cloud Machine Learning PAI "Parameter-Efficient Sparsity for Large Language Models Fine-Tuning" mengenai latihan jarang model besar telah diterima oleh IJCAI 2022, persidangan kecerdasan buatan teratas.
Kertas ini mencadangkan algoritma latihan jarang yang cekap parameter PST Dengan menganalisis indeks kepentingan pemberat, disimpulkan bahawa ia mempunyai dua ciri: peringkat rendah dan struktur. Berdasarkan kesimpulan ini, algoritma PST memperkenalkan dua set matriks kecil untuk mengira kepentingan pemberat Berbanding dengan keperluan asal untuk matriks sebesar berat untuk menyimpan dan mengemas kini indeks kepentingan, jumlah parameter yang perlu. dikemas kini untuk latihan yang jarang dikurangkan. Berbanding dengan algoritma latihan jarang yang biasa digunakan, algoritma PST boleh mencapai ketepatan model jarang yang serupa sambil mengemas kini hanya 1.5% parameter.

Latar Belakang

Dalam beberapa tahun kebelakangan ini, syarikat utama dan institusi penyelidikan telah mencadangkan pelbagai model besar, dengan parameter antara berpuluh bilion hingga puluhan ribu daripada berbilion-bilion hingga ratusan bilion, malah model super besar berpuluh-puluh trilion telah muncul. Model ini memerlukan sejumlah besar sumber perkakasan untuk dilatih dan digunakan, yang menjadikannya sukar untuk dilaksanakan. Oleh itu, bagaimana untuk mengurangkan sumber yang diperlukan untuk latihan dan penggunaan model besar telah menjadi masalah yang mendesak.
Teknologi pemampatan model secara berkesan boleh mengurangkan sumber yang diperlukan untuk penggunaan model Dengan mengalih keluar beberapa pemberat, pengiraan dalam model boleh ditukar daripada pengiraan padat kepada pengiraan jarang, dengan itu mengurangkan penggunaan memori dan mempercepatkan pengiraan. Pada masa yang sama, berbanding dengan kaedah pemampatan model lain (pemangkasan/kuantisasi berstruktur), jarang boleh mencapai kadar mampatan yang lebih tinggi sambil memastikan ketepatan model, dan lebih sesuai untuk model besar dengan sejumlah besar parameter.

Cabaran

Kaedah latihan jarang sedia ada boleh dibahagikan kepada dua kategori, satu ialah algoritma jarang tanpa data berasaskan berat; algoritma jarang. Algoritma jarang berasaskan berat ditunjukkan dalam rajah di bawah, seperti pemangkasan magnitud [1], yang menilai kepentingan berat dengan mengira norma L1 berat, dan menjana hasil jarang sepadan berdasarkan ini. Algoritma jarang berasaskan berat adalah cekap dalam pengiraan dan tidak memerlukan penyertaan data latihan, tetapi indeks kepentingan yang dikira tidak cukup tepat, sekali gus menjejaskan ketepatan model jarang akhir.