Rumah >Peranti teknologi >AI >Perhatian linearizing
Model Bahasa Besar (LLMS) Excel, tetapi mekanisme perhatian softmax mereka membentangkan kesesakan pengiraan. Artikel ini meneroka alternatif untuk mencapai kerumitan masa linear.
Dengan mengandaikan kebiasaan dengan LLMs seperti CHATGPT dan Transformers, kami memberi tumpuan kepada perhatian, teras model ini. Tidak seperti RNN, yang memampatkan keadaan masa lalu ke dalam vektor tersembunyi, perhatian secara selektif mengambil data masa lalu yang relevan untuk setiap pertanyaan baru. Transformers menggunakan kunci (k), pertanyaan (q), dan nilai (v) embeddings. Mekanisme perhatian sepadan dengan pertanyaan terhadap kunci untuk mendapatkan nilai:
SoftMax menukarkan skor persamaan dengan kebarangkalian, serupa dengan jiran k-terdekat.
Kos pengiraan lapisan perhatian tunggal ialah:
kerumitan kuadratik (O (n²)) dari softmax menjadi larangan untuk urutan panjang (n & gt; & gt; 100k).
Perhatian linear, yang dicadangkan oleh Katharopoulos et al., Cleverly menulis semula eksponen softmax sebagai fungsi kernel, yang membolehkan pengiraan linear. Transformasi ditunjukkan di bawah:
Fungsi
elu(x) 1
menghampiri eksponen. Kos pengiraan menjadi:
Ini linear (o (nd²)) apabila n & gt; & gt; & gt; D, senario biasa dalam LLMS. Pandangan berulang ialah:
Ketidakpastian SoftMax menghalang linearization ini. Semasa penyahkodan, hanya S (n-1) memerlukan penjejakan, menghasilkan token O (d²). Walau bagaimanapun, saiz tetap S (n-1) mengehadkan pengekalan konteks.
Perhatian Linear Gated menangani batasan memori dengan memilih maklumat selektif. Perubahan utama adalah dalam perumusan S_N:
pelbagai fungsi gating (g) wujud, masing -masing membawa kepada model yang berbeza:
Ketergantungan fungsi gating hanya pada token semasa membolehkan pemprosesan selari yang cekap.
Model Angkasa Negeri (SSMS) menawarkan perspektif yang berbeza, merawat urutan seperti imej proses CNNS. Model ini adalah sistem invarian masa linear yang diskret:
Ini berkaitan dengan konvolusi sebagai:
H3 menggunakan dua lapisan SSM pelengkap:
Kesimpulan
Rujukan:
Katharopoulos et al. (2020)
, Yang et al. (2023) , Fu et al. (2022) , gu & dao (2023) , Waleffe et al. (2024)
Atas ialah kandungan terperinci Perhatian linearizing. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!