Rumah  >  Artikel  >  Peranti teknologi  >  Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

PHPz
PHPzke hadapan
2024-02-15 19:00:191254semak imbas

Kesannya lebih stabil dan pelaksanaannya lebih mudah.

Kejayaan model bahasa besar (LLM) tidak dapat dipisahkan daripada "pembelajaran pengukuhan berdasarkan maklum balas manusia (RLHF)". RLHF boleh dibahagikan secara kasar kepada dua peringkat Pertama, memandangkan sepasang tingkah laku pilihan dan tidak disukai, model ganjaran dilatih untuk memberikan skor yang lebih tinggi kepada yang pertama dengan mengklasifikasikan sasaran. Fungsi ganjaran ini kemudiannya dioptimumkan melalui beberapa jenis algoritma pembelajaran pengukuhan. Walau bagaimanapun, elemen utama model ganjaran mungkin mempunyai beberapa kesan yang tidak diingini.

Penyelidik dari Carnegie Mellon University (CMU) dan Google Research bersama-sama mencadangkan kaedah RLHF baharu yang ringkas, ketat secara teori dan berkesan secara eksperimen - Pengoptimuman Keutamaan Permainan Kendiri (Pengoptimuman Keutamaan Main Kendiri (SPO). Pendekatan ini menghapuskan model ganjaran dan tidak memerlukan latihan lawan.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Kertas: Pendekatan Minimaksimal untuk Pembelajaran Peneguhan daripada Maklum Balas Manusia
Alamat kertas: https://arxiv.org/abs/2401.04056


kepada kaedah

SPO Yang kaedah terutamanya merangkumi Dua aspek. Pertama, kajian ini benar-benar menghapuskan model ganjaran dengan membina RLHF sebagai permainan jumlah sifar, menjadikannya lebih berkemampuan untuk mengendalikan pilihan bising, bukan Markovian yang sering muncul dalam amalan. Kedua, dengan mengeksploitasi simetri permainan, kajian ini menunjukkan bahawa ejen tunggal hanya boleh dilatih dengan cara permainan sendiri, dengan itu menghapuskan keperluan untuk latihan lawan yang tidak stabil.
Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawanDalam amalan, ini adalah bersamaan dengan pensampelan berbilang trajektori daripada ejen, meminta penilai atau model keutamaan untuk membandingkan setiap pasangan trajektori, dan menetapkan ganjaran kepada kadar kemenangan trajektori.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawanSPO mengelakkan pemodelan ganjaran, ralat kompaun dan latihan lawan. Dengan mewujudkan konsep pemenang minmax daripada teori pilihan sosial, kajian ini membina RLHF sebagai permainan jumlah sifar dua orang dan mengeksploitasi simetri matriks hasil permainan untuk menunjukkan bahawa ejen tunggal boleh dilatih dengan mudah untuk melawan dirinya sendiri.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan


Kajian ini juga menganalisis ciri penumpuan SPO dan membuktikan bahawa apabila fungsi ganjaran berpotensi wujud, SPO boleh menumpu kepada polisi optimum pada kelajuan pantas setanding dengan kaedah standard.
Eksperimen

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawanKajian ini menunjukkan bahawa SPO berprestasi lebih baik daripada kaedah berasaskan model ganjaran pada satu siri tugas kawalan berterusan dengan fungsi keutamaan yang realistik. SPO dapat mempelajari sampel dengan lebih cekap daripada kaedah berasaskan model ganjaran dalam pelbagai tetapan keutamaan, seperti ditunjukkan dalam Rajah 2 di bawah.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan


Kajian ini membandingkan SPO dengan kaedah pemodelan ganjaran berulang (RM) daripada pelbagai dimensi, bertujuan untuk menjawab 4 soalan:
  1. W intransitive boleh dikira, SPO intransitive
    MW?
  2. Bolehkah SPO memadankan atau melebihi kecekapan sampel RM pada masalah dengan Pemenang Copeland yang unik/strategi optimum?
  3. Sejauh manakah SPO teguh kepada pilihan rawak?
  4. Bolehkah SPO mengendalikan pilihan bukan Markovian?

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Dari segi keutamaan ganjaran maksimum, keutamaan hingar, dan keutamaan bukan Markov, keputusan eksperimen kajian ini masing-masing ditunjukkan dalam Rajah 6, 7, dan 8:

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

🎜

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih lanjut tentang kandungan penyelidikan.

Atas ialah kandungan terperinci Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam