Rumah >Peranti teknologi >AI >Linearizing llama
Artikel ini meneroka menggantikan perhatian diri softmax dalam model bahasa Llama-3.2-1B dengan pendekatan hibrid yang menggabungkan tingkap gelongsor softmax dan perhatian linear. Ini bertujuan untuk meningkatkan kelajuan kesimpulan tanpa kehilangan ketepatan yang ketara, mengurangkan kos menggunakan model bahasa yang besar.
Projek ini didasarkan pada penyelidikan dalam "Lolcats: pada linearizing rendah model bahasa besar," "kajian empirikal model bahasa berasaskan Mamba," dan "perhatian linearizing." Ia memberi tumpuan kepada menggantikan 50% lapisan perhatian diri dalam model Llama yang terlatih.
Proses dibahagikan kepada empat bahagian:
Blok Perhatian Hibrid: Bahagian ini memperincikan penciptaan blok perhatian tersuai yang menggabungkan tingkap gelongsor dan mekanisme perhatian linear, menggunakan faktor yang boleh dipelajari untuk mengimbangi sumbangan mereka. Pendekatan tetingkap gelongsor menghadkan perhatian kepada saiz tetingkap yang ditentukan, meningkatkan kecekapan. Perhatian linear, digunakan untuk token yang lebih awal, mengoptimumkan pengiraan lagi.
Pemindahan Perhatian: Tahap ini memanfaatkan metodologi "lolcats". Berat dari blok perhatian Llama asal digunakan untuk memulakan blok hibrid. Latihan melibatkan lulus ke hadapan dengan input latihan, mengira kehilangan MSE antara output blok asal dan hibrid, dan penalaan halus blok hibrid untuk meniru tingkah laku asal.
lora finetuning: Penyesuaian peringkat rendah (LORA) digunakan untuk menyempurnakan blok perhatian hibrid dalam model Llama yang lebih besar. Langkah ini memberi tumpuan kepada latihan parameter blok hibrid sambil mengekalkan parameter lain beku, mengoptimumkan model untuk penjanaan teks menggunakan dataset Dolly-15K.
Penilaian: Prestasi model hibrid dinilai terhadap model Llama-3.2-1B asal. Penandaarasan memberi tumpuan kepada kelajuan kesimpulan (token sesaat dan saat setiap token) dan ketepatan (menggunakan penanda aras MMLU).
Kesimpulannya menekankan potensi mekanisme perhatian hibrid sebagai pendekatan kos efektif untuk meningkatkan kelajuan kesimpulan LLM. Kajian ini juga mencatatkan keperluan untuk mengoptimumkan selanjutnya arkitek perhatian linear dan kepentingan mempertimbangkan batasan perkakasan ketika menilai prestasi model. Kod untuk projek ini boleh didapati di linearizing-llama-3.2-1b .
Rujukan Lesen:
[1] FINEWEB-EDU: ODC-BY V1.0 [2] Dolly-15K: CC BY-SA 3.0 [3] MMLU: Lesen MIT
Atas ialah kandungan terperinci Linearizing llama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!