Rumah >Peranti teknologi >AI >Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

PHPzke hadapan: 2024-02-15 19:00:191412semak imbas

Kesannya lebih stabil dan pelaksanaannya lebih mudah.

Kejayaan model bahasa besar (LLM) tidak dapat dipisahkan daripada "pembelajaran pengukuhan berdasarkan maklum balas manusia (RLHF)". RLHF boleh dibahagikan secara kasar kepada dua peringkat Pertama, memandangkan sepasang tingkah laku pilihan dan tidak disukai, model ganjaran dilatih untuk memberikan skor yang lebih tinggi kepada yang pertama dengan mengklasifikasikan sasaran. Fungsi ganjaran ini kemudiannya dioptimumkan melalui beberapa jenis algoritma pembelajaran pengukuhan. Walau bagaimanapun, elemen utama model ganjaran mungkin mempunyai beberapa kesan yang tidak diingini.

Penyelidik dari Carnegie Mellon University (CMU) dan Google Research bersama-sama mencadangkan kaedah RLHF baharu yang ringkas, ketat secara teori dan berkesan secara eksperimen - Pengoptimuman Keutamaan Permainan Kendiri (Pengoptimuman Keutamaan Main Kendiri (SPO). Pendekatan ini menghapuskan model ganjaran dan tidak memerlukan latihan lawan.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Kertas: Pendekatan Minimaksimal untuk Pembelajaran Peneguhan daripada Maklum Balas Manusia

Alamat kertas: https://arxiv.org/abs/2401.04056

kepada kaedah

SPO Yang kaedah terutamanya merangkumi Dua aspek. Pertama, kajian ini benar-benar menghapuskan model ganjaran dengan membina RLHF sebagai permainan jumlah sifar, menjadikannya lebih berkemampuan untuk mengendalikan pilihan bising, bukan Markovian yang sering muncul dalam amalan. Kedua, dengan mengeksploitasi simetri permainan, kajian ini menunjukkan bahawa ejen tunggal hanya boleh dilatih dengan cara permainan sendiri, dengan itu menghapuskan keperluan untuk latihan lawan yang tidak stabil.

Dalam amalan, ini adalah bersamaan dengan pensampelan berbilang trajektori daripada ejen, meminta penilai atau model keutamaan untuk membandingkan setiap pasangan trajektori, dan menetapkan ganjaran kepada kadar kemenangan trajektori.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan SPO mengelakkan pemodelan ganjaran, ralat kompaun dan latihan lawan. Dengan mewujudkan konsep pemenang minmax daripada teori pilihan sosial, kajian ini membina RLHF sebagai permainan jumlah sifar dua orang dan mengeksploitasi simetri matriks hasil permainan untuk menunjukkan bahawa ejen tunggal boleh dilatih dengan mudah untuk melawan dirinya sendiri.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Kajian ini juga menganalisis ciri penumpuan SPO dan membuktikan bahawa apabila fungsi ganjaran berpotensi wujud, SPO boleh menumpu kepada polisi optimum pada kelajuan pantas setanding dengan kaedah standard.

Eksperimen

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan Kajian ini menunjukkan bahawa SPO berprestasi lebih baik daripada kaedah berasaskan model ganjaran pada satu siri tugas kawalan berterusan dengan fungsi keutamaan yang realistik. SPO dapat mempelajari sampel dengan lebih cekap daripada kaedah berasaskan model ganjaran dalam pelbagai tetapan keutamaan, seperti ditunjukkan dalam Rajah 2 di bawah.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Kajian ini membandingkan SPO dengan kaedah pemodelan ganjaran berulang (RM) daripada pelbagai dimensi, bertujuan untuk menjawab 4 soalan:

W intransitive boleh dikira, SPO intransitive
MW?
Bolehkah SPO memadankan atau melebihi kecekapan sampel RM pada masalah dengan Pemenang Copeland yang unik/strategi optimum?
Sejauh manakah SPO teguh kepada pilihan rawak?
Bolehkah SPO mengendalikan pilihan bukan Markovian?

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Dari segi keutamaan ganjaran maksimum, keutamaan hingar, dan keutamaan bukan Markov, keputusan eksperimen kajian ini masing-masing ditunjukkan dalam Rajah 6, 7, dan 8:

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

🎜

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih lanjut tentang kandungan penyelidikan.

Atas ialah kandungan terperinci Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Error 算法 https

Kenyataan：

Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：16 artikel dalam tiga tahun, bekas saintis penyelidikan Google Yi Tay secara rasmi mengumumkan model baharu, 21B setanding dengan Gemini Pro, GPT-3.5Artikel seterusnya：16 artikel dalam tiga tahun, bekas saintis penyelidikan Google Yi Tay secara rasmi mengumumkan model baharu, 21B setanding dengan Gemini Pro, GPT-3.5

Artikel berkaitan

Lihat lagi