Rumah >Peranti teknologi >AI >Di luar pemodelan bahasa kausal

Di luar pemodelan bahasa kausal

PHPz
PHPzasal
2025-02-25 18:28:09175semak imbas

Neurips 2024 Spotlight: mengoptimumkan model bahasa pretraining dengan pemodelan bahasa terpilih (SLM)

Baru -baru ini, saya membentangkan kertas menarik dari Neurips 2024, "Tidak semua token adalah apa yang anda perlukan untuk pretraining," di kumpulan bacaan tempatan. Makalah ini menangani soalan yang mengejutkan namun berkesan: Adakah ramalan yang boleh ditarik seterusnya diperlukan untuk setiap token semasa model bahasa pretraining?

Pendekatan standard melibatkan dataset yang dikurangkan web secara besar-besaran dan memohon pemodelan bahasa kausal (CLM) secara universal. Makalah ini mencabar andaian itu, mencadangkan bahawa beberapa token menghalang, bukannya membantu, proses pembelajaran. Penulis menunjukkan bahawa memberi tumpuan kepada token "berguna" dengan ketara meningkatkan kecekapan data dan prestasi tugas hiliran. Jawatan ini meringkaskan idea teras mereka dan penemuan eksperimen utama.

Masalah: Kebisingan dan Pembelajaran Tidak cekap

Corpora Web Besar tidak dapat dielakkan mengandungi bunyi bising. Walaupun penapisan peringkat dokumen membantu, bunyi sering berada dalam dokumen individu. Tanda -tanda bising ini membazir sumber pengiraan dan berpotensi mengelirukan model.

Penulis menganalisis dinamik pembelajaran tahap token, mengkategorikan token berdasarkan trajektori kehilangan entropi mereka:

  • l → l (rendah hingga rendah): Cepat belajar, memberikan manfaat selanjutnya yang minimum.
  • h → l (tinggi hingga rendah): pada mulanya sukar, tetapi akhirnya belajar; mewakili peluang pembelajaran yang berharga.
  • H → H (Tinggi hingga Tinggi): Secara konsisten sukar, sering disebabkan oleh ketidakpastian yang wujud (ketidakpastian aleatoric).
  • L → H (rendah hingga tinggi): pada mulanya dipelajari, tetapi kemudian menjadi bermasalah, mungkin disebabkan oleh perubahan konteks atau bunyi.

Analisis mereka mendedahkan bahawa hanya sebahagian kecil daripada token yang memberikan isyarat pembelajaran yang bermakna.

Penyelesaian: Pemodelan Bahasa Selektif (SLM)

Penyelesaian yang dicadangkan, Pemodelan Bahasa Selektif (SLM), menawarkan pendekatan yang lebih disasarkan:

Beyond Causal Language Modeling

    Latihan Model Rujukan (RM)
  1. : Subset berkualiti tinggi data digunakan untuk menyesuaikan model asas pra-terlatih, mewujudkan model rujukan (RM). RM ini bertindak sebagai penanda aras untuk token "kegunaan."

  2. Pengiraan kerugian yang berlebihan: untuk setiap token dalam korpus besar, perbezaan antara kehilangan RM dan kehilangan model latihan semasa ("kehilangan berlebihan") dikira. Kerugian berlebihan yang lebih tinggi menunjukkan potensi yang lebih besar untuk penambahbaikan.

  3. Backpropagation selektif: Lulus ke hadapan penuh dilakukan pada semua token, tetapi backpropagation hanya berlaku untuk bahagian atas k% token dengan kerugian berlebihan tertinggi. Ini secara dinamik memfokuskan latihan pada token yang paling berharga.

Hasil eksperimen: Keuntungan yang signifikan

SLM menunjukkan kelebihan yang signifikan merentasi pelbagai eksperimen:

Beyond Causal Language Modeling

  • Domain matematik: pada OpenWebMath , SLM mencapai sehingga 10% keuntungan prestasi pada tanda aras GSM8K dan matematik berbanding dengan CLM standard, mencapai prestasi asas 5-10 kali lebih cepat. Model 7B sepadan dengan model canggih menggunakan hanya 3% daripada token latihannya. Penalaan halus terus meningkatkan prestasi sebanyak 40% untuk model 1B.

  • Domain Umum: Walaupun dengan model asas pra-terlatih yang kuat, SLM menghasilkan kira-kira 5.8% peningkatan purata di 15 tanda aras, terutamanya dalam domain yang mencabar seperti kod dan matematik.

  • Rujukan sendiri: Bahkan RM yang terlatih dengan cepat dari korpus mentah memberikan rangsangan ketepatan 2-3% dan pengurangan token 30-40% yang digunakan.

kesimpulan dan kerja masa depan

Makalah ini menawarkan pandangan yang berharga ke dalam dinamik pembelajaran peringkat token dan memperkenalkan SLM, teknik yang sangat berkesan untuk mengoptimumkan model bahasa pretraining. Arahan penyelidikan masa depan termasuk skala SLM kepada model yang lebih besar, meneroka model rujukan berasaskan API, mengintegrasikan pembelajaran tetulang, menggunakan model rujukan berganda, dan menyelaraskan SLM dengan pertimbangan keselamatan dan kebenaran. Kerja ini merupakan kemajuan yang ketara dalam latihan model bahasa yang cekap dan berkesan.

Atas ialah kandungan terperinci Di luar pemodelan bahasa kausal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn