Rumah >Peranti teknologi >AI >ICML 2024 |. Mendedahkan mekanisme pembelajaran Transformer bukan linear dan generalisasi dalam pembelajaran kontekstual

ICML 2024 |. Mendedahkan mekanisme pembelajaran Transformer bukan linear dan generalisasi dalam pembelajaran kontekstual

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal: 2024-06-29 00:44:41496semak imbas

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pengarang artikel ini, Li Hongkang, ialah pelajar kedoktoran di Jabatan Kejuruteraan Elektrik, Komputer dan Sistem di Institut Politeknik Rensselaer di Amerika Syarikat Beliau lulus dari Universiti Sains dan Teknologi China dengan ijazah sarjana muda. Arah penyelidikan termasuk teori pembelajaran mendalam, teori model bahasa besar, pembelajaran mesin statistik, dsb. Beliau telah menerbitkan banyak kertas kerja di persidangan AI terkemuka seperti ICLR/ICML/Neurips.

Pembelajaran dalam konteks (ICL) telah menunjukkan keupayaan hebat dalam banyak aplikasi berkaitan LLM, tetapi analisis teorinya masih agak terhad. Orang ramai masih cuba memahami mengapa LLM berdasarkan seni bina Transformer boleh mempamerkan keupayaan ICL.

Baru-baru ini, pasukan dari Rensselaer Polytechnic University dan IBM Research menganalisis ICL of Transformer dengan modul perhatian bukan linear (perhatian) dan multilayer perceptron (MLP) daripada perspektif pengoptimuman dan keupayaan teori generalisasi. Khususnya, mereka secara teorinya membuktikan mekanisme ICL di mana Transformer satu lapisan mula-mula memilih beberapa contoh kontekstual berdasarkan pertanyaan dalam lapisan perhatian, dan kemudian membuat ramalan berdasarkan pembenaman label dalam lapisan MLP. Artikel ini telah disertakan dalam ICML 2024. .

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Pembelajaran dalam konteks (ICL)

Pembelajaran konteks (ICL) ialah paradigma pembelajaran baharu yang sangat popular dalam model bahasa besar (LLM). Ia secara khusus merujuk kepada menambah N contoh ujian sampel ujian (konteks) sebelum pertanyaan ujian (pertanyaan ujian)
, iaitu gabungan input ujian
, dengan itu membentuk gesaan ujian:
sebagai input model untuk membimbing model Membuat inferens yang betul. Kaedah ini berbeza daripada kaedah klasik untuk menyempurnakan model yang telah dilatih. Ia tidak memerlukan perubahan berat model, menjadikannya lebih cekap.

Kemajuan dalam kerja teori ICL

Banyak kerja teori terkini adalah berdasarkan rangka kerja penyelidikan yang dicadangkan oleh [1], iaitu, orang ramai boleh terus menggunakan format segera untuk melatih Transformer (langkah ini juga boleh difahami sebagai simulasi Mod pra-latihan LLM yang dipermudahkan), dengan itu menjadikan model tersebut mempunyai keupayaan ICL. Kerja teori sedia ada memberi tumpuan kepada kuasa ekspresif model [2]. Mereka mendapati bahawa seseorang boleh mencari Transformer dengan parameter "sempurna" yang boleh melaksanakan ICL melalui operasi ke hadapan dan juga secara tersirat melaksanakan algoritma pembelajaran mesin klasik seperti keturunan kecerunan. Tetapi kerja-kerja ini tidak dapat menjawab mengapa Transformer boleh dilatih untuk parameter "sempurna" sedemikian dengan keupayaan ICL. Oleh itu, terdapat juga beberapa karya cuba memahami mekanisme ICL dari perspektif latihan atau generalisasi Transformer [3,4]. Walau bagaimanapun, disebabkan oleh kerumitan menganalisis struktur Transformer, kerja-kerja ini kini berhenti pada mengkaji tugas regresi linear, dan model yang dipertimbangkan biasanya menghilangkan bahagian bukan linear Transformer.

Artikel ini menganalisis keupayaan dan mekanisme ICL Transformer dengan perhatian tak linear dan MLP dari perspektif pengoptimuman dan teori generalisasi:

Berdasarkan model klasifikasi yang dipermudahkan, artikel ini secara khusus mengukur bagaimana ciri-ciri data mempengaruhi a keupayaan generalisasi ICL dalam domain dan luar domain (OOD) Transformer kepala tunggal lapisan. ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 Artikel ini menerangkan lagi cara ICL dilaksanakan melalui Transformer terlatih.

Berdasarkan ciri Transformer terlatih, artikel ini juga menganalisis kebolehlaksanaan menggunakan pemangkasan model berasaskan magnitud semasa inferens ICL.

. Untuk menyelesaikan masalah sedemikian, artikel ini membina segera untuk pembelajaran. Gesaan di sini diwakili sebagai:

Melatih rangkaian sebagai Transformer kepala tunggal lapisan tunggal:

Proses pra-latihan adalah untuk menyelesaikan pengurangan risiko empirikal untuk semua tugas latihan. Fungsi kehilangan menggunakan Hinge loss, yang sesuai untuk masalah klasifikasi binari, dan algoritma latihan ialah keturunan kecerunan stokastik.

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 Artikel ini mentakrifkan dua kes generalisasi ICL. Satu adalah dalam domain, iaitu, pengedaran data ujian adalah sama dengan data latihan semasa generalisasi Perhatikan bahawa dalam kes ini, tugas ujian tidak perlu sama dengan tugas latihan, iaitu generalisasi tugas ghaib telah dipertimbangkan di sini. Satu lagi adalah di luar domain, iaitu, pengedaran data ujian dan latihan adalah berbeza. ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 Artikel ini juga melibatkan analisis pemangkasan berasaskan magnitud semasa inferens ICL Kaedah pemangkasan di sini merujuk kepada pemadaman setiap neuron yang diperolehi dengan latihan dari kecil ke besar mengikut amplitudnya.

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 Pembinaan data dan tugas

Sila rujuk Bahagian 3.2 teks asal untuk bahagian ini. Analisis teori artikel ini adalah berdasarkan laluan pembelajaran ciri yang popular baru-baru ini, iaitu, data biasanya diandaikan sebagai corak boleh dipisahkan (biasanya ortogon), dengan itu menghasilkan perubahan kecerunan berdasarkan corak yang berbeza. Artikel ini mula-mula mentakrifkan satu set corak berkaitan dalam domain (IDR) yang digunakan untuk menentukan klasifikasi tugasan dalam domain dan set corak tidak berkaitan domain bebas tugas (IDI) Corak ini adalah ortogon bagi setiap satu lain. Terdapat

corak IDR dan ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 corak IDI. A

diwakili sebagai jumlah corak IDR dan corak IDI. Tugas dalam domain ditakrifkan sebagai masalah klasifikasi berdasarkan dua corak IDR.

Begitu juga, artikel ini boleh menerangkan data dan tugas apabila OOD digeneralisasikan dengan mentakrifkan corak luar domain yang berkaitan (ODR) dan corak luar domain tidak berkaitan (ODI).

Perwakilan prompt dalam artikel ini boleh dijelaskan melalui contoh dalam rajah di bawah, di mana

ialah corak IDR dan

ialah corak IDI. Tugas yang dilakukan di sini adalah untuk mengelaskan berdasarkan

dalam x Jika ia adalah , maka labelnya ialah + 1, yang sepadan dengan +q, maka labelnya ialah - 1, yang sepadan dengan -q. α, α' ditakrifkan sebagai contoh konteks dalam gesaan latihan dan ujian yang masing-masing sama dengan pola IDR/ODR pertanyaan. Dalam contoh di bawah, .

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Hasil teori

Pertama sekali, untuk situasi dalam domain, artikel ini terlebih dahulu memberi syarat 3.2 untuk menetapkan syarat-syarat yang perlu dipenuhi oleh tugas latihan, iaitu tugas latihan perlu meliputi semua corak IDR dan label. Maka keputusan dalam domain adalah seperti berikut:

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Ini menunjukkan: 1. Bilangan tugas latihan hanya perlu mengambil kira sebahagian kecil daripada semua tugas yang memenuhi syarat 3.2, dan kita boleh mencapai generalisasi tugas yang tidak kelihatan yang baik. ; 2. Semakin tinggi perkadaran pola IDR yang berkaitan dengan tugas semasa dalam gesaan, generalisasi yang ideal boleh dicapai dengan kurang data latihan, bilangan lelaran latihan dan gesaan latihan/pengujian yang lebih pendek.

Seterusnya ialah hasil generalisasi di luar domain.

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Dijelaskan di sini bahawa jika pola ODR adalah gabungan linear corak IDR dan jumlah pekali lebih besar daripada 1, maka generalisasi OOD ICL boleh mencapai kesan yang ideal pada masa ini. Keputusan ini memberikan sambungan intrinsik antara latihan dan data ujian yang diperlukan untuk generalisasi OOD yang baik di bawah rangka kerja ICL. Teorem ini juga telah disahkan oleh eksperimen pada GPT-2. Seperti yang ditunjukkan dalam rajah di bawah, apabila jumlah pekali ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 dalam (12) lebih besar daripada 1, pengelasan OOD boleh mencapai hasil yang ideal. Pada masa yang sama, apabila , iaitu, apabila perkadaran pola ODR/IDR yang berkaitan dengan tugasan pengelasan dalam gesaan adalah lebih tinggi, panjang konteks yang diperlukan adalah lebih kecil.

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Kemudian, kertas kerja ini memberikan keputusan generalisasi ICL dengan pemangkasan berasaskan magnitud.

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Hasil ini menunjukkan bahawa, pertama sekali, beberapa (kadaran malar) neuron dalam ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 terlatih mempunyai amplitud kecil, manakala yang selebihnya agak besar (Persamaan 14). Apabila kita hanya mencantas neuron kecil, pada asasnya tiada kesan ke atas keputusan generalisasi Apabila perkadaran pemangkasan meningkat kepada pemangkasan neuron besar, ralat generalisasi akan meningkat dengan ketara (Formula 15, 16). Eksperimen berikut mengesahkan Teorem 3.7. Garis menegak biru muda dalam Rajah A di bawah mewakili ICML 2024 |. Mendedahkan mekanisme pembelajaran Transformer bukan linear dan generalisasi dalam pembelajaran kontekstual yang diperoleh melalui latihan dan membentangkan keputusan Formula 14. Walau bagaimanapun, pemangkasan neuron kecil tidak akan memburukkan generalisasi ini adalah konsisten dengan teori. Rajah B menunjukkan bahawa apabila terdapat lebih banyak konteks berkaitan tugas dalam gesaan, kami boleh membenarkan nisbah pemangkasan yang lebih besar untuk mencapai prestasi generalisasi yang sama.

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Mekanisme ICL

Dengan mencirikan proses pra-latihan, artikel ini memperoleh mekanisme dalaman Transformer tak linear kepala tunggal satu lapisan untuk ICL, yang terdapat dalam Bahagian 4 artikel asal. Proses ini boleh diwakili oleh rajah di bawah.

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Ringkasnya, lapisan perhatian akan memilih konteks yang sama seperti pola ODR/IDR pertanyaan, memberikan mereka hampir semua wajaran perhatian, dan kemudian lapisan MLP akan memfokus pada membuat klasifikasi akhir berdasarkan pembenaman label dalam output lapisan perhatian.

Ringkasan

Artikel ini menerangkan mekanisme latihan Transformer tak linear dalam ICL, serta keupayaan generalisasinya kepada tugas baharu dan data anjakan pengedaran. Keputusan teori mempunyai kepentingan praktikal tertentu untuk mereka bentuk algoritma pemilihan segera dan algoritma pemangkasan LLM.

^参考文献

^{[1] Garg, et al., Neurips 2022. "Apakah yang boleh dipelajari oleh transformer dalam konteks? kajian kes kelas fungsi mudah."}

^{Von Oswald et al., ICML 2023. "Transformer belajar dalam konteks mengikut keturunan kecerunan."}

^{[3] Zhang et al., JMLR 2024. "Transformer terlatih mempelajari model linear dalam konteks."}

[4] Huang et al., ICML 2024. "Penumpuan dalam konteks transformer."

Atas ialah kandungan terperinci ICML 2024 |. Mendedahkan mekanisme pembelajaran Transformer bukan linear dan generalisasi dalam pembelajaran kontekstual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 function 算法线性回归 transformer https gpt prompt

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Mengalahkan Gemini-1.5-Pro dan GPT-4V, kedudukan antara tiga teratas di dunia dalam keupayaan pelbagai mod model besarArtikel seterusnya：Mengalahkan Gemini-1.5-Pro dan GPT-4V, kedudukan antara tiga teratas di dunia dalam keupayaan pelbagai mod model besar

Artikel berkaitan

Lihat lagi