Rumah >Peranti teknologi >AI >Perhatian linearizing

Perhatian linearizing

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal
2025-02-25 19:10:11117semak imbas

Model Bahasa Besar (LLMS) Excel, tetapi mekanisme perhatian softmax mereka membentangkan kesesakan pengiraan. Artikel ini meneroka alternatif untuk mencapai kerumitan masa linear.

Linearizing Attention Fundamental Perhatian

Dengan mengandaikan kebiasaan dengan LLMs seperti CHATGPT dan Transformers, kami memberi tumpuan kepada perhatian, teras model ini. Tidak seperti RNN, yang memampatkan keadaan masa lalu ke dalam vektor tersembunyi, perhatian secara selektif mengambil data masa lalu yang relevan untuk setiap pertanyaan baru. Transformers menggunakan kunci (k), pertanyaan (q), dan nilai (v) embeddings. Mekanisme perhatian sepadan dengan pertanyaan terhadap kunci untuk mendapatkan nilai:

Linearizing Attention SoftMax menukarkan skor persamaan dengan kebarangkalian, serupa dengan jiran k-terdekat.

Kos pengiraan lapisan perhatian tunggal ialah:

Linearizing Attention kerumitan kuadratik (O (n²)) dari softmax menjadi larangan untuk urutan panjang (n & gt; & gt; 100k).

Perhatian linear: penyelesaian?

Perhatian linear, yang dicadangkan oleh Katharopoulos et al., Cleverly menulis semula eksponen softmax sebagai fungsi kernel, yang membolehkan pengiraan linear. Transformasi ditunjukkan di bawah:

Linearizing Attention Fungsi elu(x) 1 menghampiri eksponen. Kos pengiraan menjadi:

Linearizing Attention Ini linear (o (nd²)) apabila n & gt; & gt; & gt; D, senario biasa dalam LLMS. Pandangan berulang ialah:

Linearizing Attention Ketidakpastian SoftMax menghalang linearization ini. Semasa penyahkodan, hanya S (n-1) memerlukan penjejakan, menghasilkan token O (d²). Walau bagaimanapun, saiz tetap S (n-1) mengehadkan pengekalan konteks.

Perhatian Linear Gated: Memori Strategik

Perhatian Linear Gated menangani batasan memori dengan memilih maklumat selektif. Perubahan utama adalah dalam perumusan S_N:

Linearizing Attention pelbagai fungsi gating (g) wujud, masing -masing membawa kepada model yang berbeza:

Linearizing Attention Ketergantungan fungsi gating hanya pada token semasa membolehkan pemprosesan selari yang cekap.

Model Angkasa Negeri: Pendekatan Convolutional

Model Angkasa Negeri (SSMS) menawarkan perspektif yang berbeza, merawat urutan seperti imej proses CNNS. Model ini adalah sistem invarian masa linear yang diskret:

Linearizing Attention Ini berkaitan dengan konvolusi sebagai:

Linearizing Attention H3 menggunakan dua lapisan SSM pelengkap:

Linearizing Attention

Model Ruang Negeri Selektif: Dinamik yang bergantung kepada data

parameter tetap SSMS mengehadkan penyesuaian. SSMS Selektif menangani ini dengan membuat sistem yang bergantung kepada sistem:

Mamba menggunakan SSM selektif dengan gating output dan convolution:

Linearizing Attention

Kesimpulan Linearizing Attention

Artikel ini mengesan evolusi pemodelan urutan yang cekap, menonjolkan perdagangan antara kecekapan pengiraan dan keupayaan memori. Kerumitan kuadratik Softmax berbeza dengan kecekapan perhatian linear, tetapi memori terhad yang kedua membawa kepada perhatian linear dan SSM. Kemajuan ke arah model yang bergantung kepada data (perhatian linear berpagar dan SSM selektif) menekankan pentingnya pengekalan maklumat penyesuaian. Bacaan lanjut dicadangkan dalam kertas yang dikutip.

Rujukan:

Katharopoulos et al. (2020)

,

Yang et al. (2023) , Fu et al. (2022) , gu & dao (2023) , Waleffe et al. (2024) . (Nota: Petikan penuh ditinggalkan untuk keringkasan tetapi boleh didapati dalam input asal.) Pengakuan: (bahagian pengakuan tetap tidak berubah.)

Atas ialah kandungan terperinci Perhatian linearizing. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel sebelumnya:Linearizing llamaArtikel seterusnya:Linearizing llama