

Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter
Penyelidik dari KAIST AI memperkenalkan Penyahkodan Instruktif (ID), kaedah yang meningkatkan LM yang ditala arahan tanpa kemas kini parameter.
Model bahasa yang ditala arahan (LM) digeneralisasikan dengan baik kepada tugas yang tidak kelihatan dalam tetapan sifar tangkapan. Walau bagaimanapun, prestasi mereka pada tugas di luar data latihan mereka selalunya terhad. Walaupun dibina pada set data yang besar dan mempunyai berbilion parameter, LM ini cemerlang dalam Pembelajaran Dalam Konteks (ICL), di mana ia boleh menjana respons kepada beberapa contoh tanpa perlu dilatih semula. Walau bagaimanapun, skop set data latihan mengehadkan keberkesanannya pada tugas yang tidak dikenali. Teknik seperti kejuruteraan segera dan kepelbagaian output boleh membantu meningkatkan prestasi tetapi memerlukan usaha yang ketara. Penyelidikan terkini meneroka penggunaan kesan penambat kognitif pada LM, mencadangkan bahawa penekanan gesaan awal boleh meningkatkan respons khusus tugasan dan meningkatkan kesetiaan kepada arahan.
Dalam kerja ini, penyelidik dari KAIST AI memperkenalkan Penyahkodan Instruktif (ID), kaedah yang meningkatkan LM yang ditala arahan tanpa sebarang kemas kini parameter. Diilhamkan oleh teknik pengawasan bising, ID menggunakan "arahan bising", yang merupakan versi arahan asal yang diubah, untuk mencipta pendekatan kontras bagi meramalkan token seterusnya. Dengan mengemudi keluaran model dalam arah yang berbeza, terutamanya menggunakan arahan "bertentangan", ID meningkatkan prestasi model merentas tugas. Percubaan menunjukkan peningkatan yang ketara dalam ketepatan, dengan model yang lebih kecil dipertingkatkan dengan ID mengatasi yang lebih besar. Kaedah ini meningkatkan pematuhan kepada arahan dan meningkatkan kualiti tindak balas keseluruhan, menunjukkan keberkesanannya merentas pelbagai model dan tugas.
Matlamat penalaan arahan adalah untuk memperhalusi LM yang telah dilatih supaya lebih mengikuti arahan bahasa semula jadi, yang meningkatkan generalisasi kepada tugas yang tidak kelihatan, terutamanya dalam senario sifar tangkapan. Memperluas kepelbagaian dan kerumitan tugas latihan meningkatkan keupayaan ini, walaupun model sering bergantung pada pengetahuan pra-latihan. Penyelidikan terdahulu menyerlahkan bahawa LM sensitif terhadap arahan yang biasa, malah mengendalikan arahan yang mengelirukan, dan kepekaan ini boleh dimanfaatkan melalui teknik kontrastif. Kontras dalam penjanaan teks, seperti Penyahkodan Kontrastif, membandingkan output daripada model atau input yang berbeza untuk meningkatkan prestasi. Kajian ini meluaskan idea ini dengan menggunakan arahan yang bising untuk meningkatkan generalisasi dalam LM yang ditala arahan.
Penyahkodan Instruktif meningkatkan penjanaan tindak balas dalam model yang ditala arahan dengan membezakan output yang dihasilkan daripada arahan yang bising. Ia dibina berdasarkan kesan penambat, di mana maklumat awal mempengaruhi pertimbangan seterusnya dan memanfaatkan perbezaan antara respons yang dijana daripada arahan asal dan arahan yang diubah. Kaedah ini menggunakan varian arahan yang bising seperti perkataan dipotong, dikocok atau rawak untuk mengelirukan model sambil memastikan kesetiaan tugasan. Dengan membandingkan logit daripada arahan asal dan bising semasa penyahkodan, Penyahkodan Instruktif membantu model membetulkan bias dan menghasilkan respons yang lebih sejajar dengan arahan yang dimaksudkan, memperhalusi prestasinya pada tugas yang tidak kelihatan.
Persediaan percubaan menggunakan set data SUPNATINST dan UNNATINST, menilai model seperti Tk-Instruct, Alpaca dan T0 merentas tugas seperti Pembetulan Ralat Tatabahasa dan Pengaturan Teks. Metrik Rouge-L, Exact Match (EM), Label Adherence (LA) dan Label Coherence (LC) menilai prestasi. ID secara konsisten meningkatkan hasil, terutamanya untuk model yang lebih besar seperti Tk-XXL, meningkatkan LA dan LC. Menariknya, arahan yang bising meningkatkan kualiti output dengan ID walaupun kemerosotan prestasi asas. Walaupun prestasi khusus tugas berbeza-beza, varian arahan 'bertentangan' terbukti mantap merentas tugas. Secara keseluruhan, ID menunjukkan peningkatan yang ketara merentas saiz model dan jenis tugas.
Kajian ini menyiasat cabaran generalisasi tugas yang tidak kelihatan dalam model bahasa yang ditala arahan. Kaedah yang dicadangkan, ID, memanfaatkan kesan penambat menggunakan arahan "bising" untuk mengatasi bias model yang wujud. Dengan membezakan ramalan dengan ramalan yang dihasilkan daripada arahan yang diubah, ID meningkatkan prestasi model, terutamanya dengan varian bising "bertentangan", yang paling menyimpang daripada input asal. Keputusan empirikal menunjukkan keberkesanan ID merentas pelbagai tugas, dengan peningkatan ketara dalam kepelbagaian ramalan. Pendekatan ini tidak memerlukan kemas kini parameter tambahan, menjadikannya alat praktikal untuk menambah baik mengikut arahan dalam model bahasa.
Lihat Kertas. Semua kredit untuk penyelidikan ini diberikan kepada penyelidik projek ini. Juga, jangan lupa untuk mengikuti kami di Twitter dan sertai Saluran Telegram dan Kumpulan LinkedIn kami. Jika anda menyukai kerja kami, anda akan menyukai surat berita kami.
Jangan Lupa sertai 50k ML SubReddit kami
Atas ialah kandungan terperinci Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Altcoins menunjukkan tanda-tanda kehidupan segar berikutan jeda tarif 90 hari Trump, dan tiga nama khususnya-XRP, gembar-gembur, dan Ondo-menarik perhatian pelabur.

Apa yang lebih baik: Memenangi hari yang besar dan kemudian menunggu wang untuk tiba, atau bermain di kasino crypto dengan pengeluaran segera?

Instrumen kewangan baru ini akan menjejaki harga pasaran token, dengan kustodian pihak ketiga yang memegang Avax yang mendasari

Panduan ini adalah untuk tujuan maklumat sahaja. Token yang dibincangkan sebagai ganjaran yang berpotensi mungkin belum dilancarkan atau tidak pernah dilancarkan.

n Perikatan Kemanusiaan dilancarkan dengan 12 ahli pengasas untuk memanfaatkan kuasa Bitcoin untuk kebaikan

CINCINNATI, OH-Seorang wanita Perbandaran Delhi yang berusia 73 tahun telah mendapat lebih daripada $ 35,000 yang hilang dalam penipuan cryptocurrency, berkat tindakan cepat polis tempatan dan unit khusus dalam Biro Penyiasatan Jenayah Ohio (BCI)

Remittix, token defi baru, boleh menjadi salah satu cryptos terbaik untuk meletakkan wang anda pada tahun ini, menurut kebanyakan.

Selepas rentetan jangka panjang dari tahap sokongan, Dogecoin (Doge) ditetapkan untuk membalikkan trend.

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Penyesuai Pelayan SAP NetWeaver untuk Eclipse
Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

EditPlus versi Cina retak
Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Dreamweaver Mac版
Alat pembangunan web visual

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa