cari
Rumahweb3.0Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter

Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter

Oct 02, 2024 pm 06:12 PM
AIInstructive Decoding Attention Enhancement Instruction-Tuned LLMs Generation Phase

Penyelidik dari KAIST AI memperkenalkan Penyahkodan Instruktif (ID), kaedah yang meningkatkan LM yang ditala arahan tanpa kemas kini parameter.

Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter

Model bahasa yang ditala arahan (LM) digeneralisasikan dengan baik kepada tugas yang tidak kelihatan dalam tetapan sifar tangkapan. Walau bagaimanapun, prestasi mereka pada tugas di luar data latihan mereka selalunya terhad. Walaupun dibina pada set data yang besar dan mempunyai berbilion parameter, LM ini cemerlang dalam Pembelajaran Dalam Konteks (ICL), di mana ia boleh menjana respons kepada beberapa contoh tanpa perlu dilatih semula. Walau bagaimanapun, skop set data latihan mengehadkan keberkesanannya pada tugas yang tidak dikenali. Teknik seperti kejuruteraan segera dan kepelbagaian output boleh membantu meningkatkan prestasi tetapi memerlukan usaha yang ketara. Penyelidikan terkini meneroka penggunaan kesan penambat kognitif pada LM, mencadangkan bahawa penekanan gesaan awal boleh meningkatkan respons khusus tugasan dan meningkatkan kesetiaan kepada arahan.

Dalam kerja ini, penyelidik dari KAIST AI memperkenalkan Penyahkodan Instruktif (ID), kaedah yang meningkatkan LM yang ditala arahan tanpa sebarang kemas kini parameter. Diilhamkan oleh teknik pengawasan bising, ID menggunakan "arahan bising", yang merupakan versi arahan asal yang diubah, untuk mencipta pendekatan kontras bagi meramalkan token seterusnya. Dengan mengemudi keluaran model dalam arah yang berbeza, terutamanya menggunakan arahan "bertentangan", ID meningkatkan prestasi model merentas tugas. Percubaan menunjukkan peningkatan yang ketara dalam ketepatan, dengan model yang lebih kecil dipertingkatkan dengan ID mengatasi yang lebih besar. Kaedah ini meningkatkan pematuhan kepada arahan dan meningkatkan kualiti tindak balas keseluruhan, menunjukkan keberkesanannya merentas pelbagai model dan tugas.

Matlamat penalaan arahan adalah untuk memperhalusi LM yang telah dilatih supaya lebih mengikuti arahan bahasa semula jadi, yang meningkatkan generalisasi kepada tugas yang tidak kelihatan, terutamanya dalam senario sifar tangkapan. Memperluas kepelbagaian dan kerumitan tugas latihan meningkatkan keupayaan ini, walaupun model sering bergantung pada pengetahuan pra-latihan. Penyelidikan terdahulu menyerlahkan bahawa LM sensitif terhadap arahan yang biasa, malah mengendalikan arahan yang mengelirukan, dan kepekaan ini boleh dimanfaatkan melalui teknik kontrastif. Kontras dalam penjanaan teks, seperti Penyahkodan Kontrastif, membandingkan output daripada model atau input yang berbeza untuk meningkatkan prestasi. Kajian ini meluaskan idea ini dengan menggunakan arahan yang bising untuk meningkatkan generalisasi dalam LM yang ditala arahan.

Penyahkodan Instruktif meningkatkan penjanaan tindak balas dalam model yang ditala arahan dengan membezakan output yang dihasilkan daripada arahan yang bising. Ia dibina berdasarkan kesan penambat, di mana maklumat awal mempengaruhi pertimbangan seterusnya dan memanfaatkan perbezaan antara respons yang dijana daripada arahan asal dan arahan yang diubah. Kaedah ini menggunakan varian arahan yang bising seperti perkataan dipotong, dikocok atau rawak untuk mengelirukan model sambil memastikan kesetiaan tugasan. Dengan membandingkan logit daripada arahan asal dan bising semasa penyahkodan, Penyahkodan Instruktif membantu model membetulkan bias dan menghasilkan respons yang lebih sejajar dengan arahan yang dimaksudkan, memperhalusi prestasinya pada tugas yang tidak kelihatan.

Persediaan percubaan menggunakan set data SUPNATINST dan UNNATINST, menilai model seperti Tk-Instruct, Alpaca dan T0 merentas tugas seperti Pembetulan Ralat Tatabahasa dan Pengaturan Teks. Metrik Rouge-L, Exact Match (EM), Label Adherence (LA) dan Label Coherence (LC) menilai prestasi. ID secara konsisten meningkatkan hasil, terutamanya untuk model yang lebih besar seperti Tk-XXL, meningkatkan LA dan LC. Menariknya, arahan yang bising meningkatkan kualiti output dengan ID walaupun kemerosotan prestasi asas. Walaupun prestasi khusus tugas berbeza-beza, varian arahan 'bertentangan' terbukti mantap merentas tugas. Secara keseluruhan, ID menunjukkan peningkatan yang ketara merentas saiz model dan jenis tugas.

Kajian ini menyiasat cabaran generalisasi tugas yang tidak kelihatan dalam model bahasa yang ditala arahan. Kaedah yang dicadangkan, ID, memanfaatkan kesan penambat menggunakan arahan "bising" untuk mengatasi bias model yang wujud. Dengan membezakan ramalan dengan ramalan yang dihasilkan daripada arahan yang diubah, ID meningkatkan prestasi model, terutamanya dengan varian bising "bertentangan", yang paling menyimpang daripada input asal. Keputusan empirikal menunjukkan keberkesanan ID merentas pelbagai tugas, dengan peningkatan ketara dalam kepelbagaian ramalan. Pendekatan ini tidak memerlukan kemas kini parameter tambahan, menjadikannya alat praktikal untuk menambah baik mengikut arahan dalam model bahasa.

Lihat Kertas. Semua kredit untuk penyelidikan ini diberikan kepada penyelidik projek ini. Juga, jangan lupa untuk mengikuti kami di Twitter dan sertai Saluran Telegram dan Kumpulan LinkedIn kami. Jika anda menyukai kerja kami, anda akan menyukai surat berita kami.

Jangan Lupa sertai 50k ML SubReddit kami

Atas ialah kandungan terperinci Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
XRP, gembar -gembur, ondo menunjukkan tanda -tanda kehidupan segarXRP, gembar -gembur, ondo menunjukkan tanda -tanda kehidupan segarApr 11, 2025 am 11:08 AM

Altcoins menunjukkan tanda-tanda kehidupan segar berikutan jeda tarif 90 hari Trump, dan tiga nama khususnya-XRP, gembar-gembur, dan Ondo-menarik perhatian pelabur.

Kasino Crypto Terbaik untuk Pengeluaran Segera 2025Kasino Crypto Terbaik untuk Pengeluaran Segera 2025Apr 11, 2025 am 11:06 AM

Apa yang lebih baik: Memenangi hari yang besar dan kemudian menunggu wang untuk tiba, atau bermain di kasino crypto dengan pengeluaran segera?

Fail Nasdaq untuk menyenaraikan Vaneck Avalanche (Avax) Trust ETFFail Nasdaq untuk menyenaraikan Vaneck Avalanche (Avax) Trust ETFApr 11, 2025 am 11:04 AM

Instrumen kewangan baru ini akan menjejaki harga pasaran token, dengan kustodian pihak ketiga yang memegang Avax yang mendasari

Panduan ini adalah untuk tujuan maklumat sahaja. Token yang dibincangkan sebagai ganjaran yang berpotensi mungkin belum dilancarkan atau tidak pernah dilancarkan.Panduan ini adalah untuk tujuan maklumat sahaja. Token yang dibincangkan sebagai ganjaran yang berpotensi mungkin belum dilancarkan atau tidak pernah dilancarkan.Apr 11, 2025 am 11:02 AM

Panduan ini adalah untuk tujuan maklumat sahaja. Token yang dibincangkan sebagai ganjaran yang berpotensi mungkin belum dilancarkan atau tidak pernah dilancarkan.

Hari ini, dua belas hak asasi manusia dan kemanusiaan terkemuka di dunia berkumpul hari ini di kelab garis depan London untuk mengumumkan pembentukan Perikatan Kemanusiaan Bitcoin. GabunganHari ini, dua belas hak asasi manusia dan kemanusiaan terkemuka di dunia berkumpul hari ini di kelab garis depan London untuk mengumumkan pembentukan Perikatan Kemanusiaan Bitcoin. GabunganApr 11, 2025 am 11:00 AM

n Perikatan Kemanusiaan dilancarkan dengan 12 ahli pengasas untuk memanfaatkan kuasa Bitcoin untuk kebaikan

Wanita memperoleh lebih daripada $ 35000 hilang dalam penipuan cryptocurrencyWanita memperoleh lebih daripada $ 35000 hilang dalam penipuan cryptocurrencyApr 11, 2025 am 10:58 AM

CINCINNATI, OH-Seorang wanita Perbandaran Delhi yang berusia 73 tahun telah mendapat lebih daripada $ 35,000 yang hilang dalam penipuan cryptocurrency, berkat tindakan cepat polis tempatan dan unit khusus dalam Biro Penyiasatan Jenayah Ohio (BCI)

Ramalan Harga Remittix (RMX) berada di persimpangan jalan hari iniRamalan Harga Remittix (RMX) berada di persimpangan jalan hari iniApr 11, 2025 am 10:56 AM

Remittix, token defi baru, boleh menjadi salah satu cryptos terbaik untuk meletakkan wang anda pada tahun ini, menurut kebanyakan.

Pembalikan Harga Dogecoin (Doge) menetapkan pentas untuk tahap tinggi sepanjang masaPembalikan Harga Dogecoin (Doge) menetapkan pentas untuk tahap tinggi sepanjang masaApr 11, 2025 am 10:54 AM

Selepas rentetan jangka panjang dari tahap sokongan, Dogecoin (Doge) ditetapkan untuk membalikkan trend.

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa