Rumah >Peranti teknologi >AI >Menyelam yang mendalam ke dalam pengoptimuman LLM: dari kecerunan dasar ke GRPO

Menyelam yang mendalam ke dalam pengoptimuman LLM: dari kecerunan dasar ke GRPO

William Shakespeare
William Shakespeareasal
2025-03-04 09:17:15490semak imbas

Pembelajaran tetulang (RL) telah merevolusikan robotik, permainan AI (Alphago, OpenAI Five), dan sistem kawalan. Kekuatannya terletak pada memaksimumkan ganjaran jangka panjang untuk mengoptimumkan pengambilan keputusan, terutamanya dalam tugas penalaran berurutan. Pada mulanya, model bahasa yang besar (LLMS) bergantung kepada pembelajaran yang diawasi dengan dataset statik, yang kurang menyesuaikan diri dan bergelut dengan penjajaran keutamaan manusia yang bernuansa. Pembelajaran pengukuhan dengan maklum balas manusia (RLHF) mengubah ini, membolehkan model seperti ChatGPT, DeepSeek, Gemini, dan Claude untuk mengoptimumkan respons berdasarkan maklum balas pengguna. Walau bagaimanapun, RLHF berasaskan PPO standard tidak cekap, yang memerlukan pemodelan ganjaran yang mahal dan latihan berulang. Pengoptimuman dasar relatif kumpulan DeepSeek (GRPO) menangani ini dengan mengoptimumkan kedudukan keutamaan secara langsung, menghapuskan keperluan untuk pemodelan ganjaran yang jelas. Untuk memahami kepentingan GRPO, kami akan meneroka teknik pengoptimuman dasar asas.

Mata Pembelajaran Utama A Deep Dive into LLM Optimization: From Policy Gradient to GRPO

artikel ini akan meliputi:

kepentingan teknik berasaskan RL untuk mengoptimumkan LLM.

    asas pengoptimuman dasar: PG, TRPO, PPO, DPO, dan GRPO.
  • Membandingkan kaedah ini untuk RL dan LLM Fine-penalaan.
  • Pelaksanaan Python praktikal algoritma pengoptimuman dasar.
  • Menilai impak penalaan yang baik menggunakan lengkung kerugian latihan dan pengagihan kebarangkalian.
  • Memohon DPO dan GRPO untuk meningkatkan keselamatan, penjajaran, dan kebolehpercayaan LLM.
  • Artikel ini adalah sebahagian daripada Blogathon Sains Data.

Jadual Kandungan Pengenalan kepada Pengoptimuman Dasar

Asas matematik kecerunan dasar (pg)

    teorem kecerunan dasar
  • mengukuhkan contoh algoritma
  • Pengoptimuman Dasar Wilayah Amanah (TRPO)
  • algoritma trpo dan konsep utama
  • contoh gelung latihan trpo
  • Pengoptimuman Dasar Proksimal (PPO)
  • algoritma PPO dan konsep utama
  • contoh gelung latihan ppo
  • Pengoptimuman Keutamaan Langsung (DPO)
  • Contoh DPO
  • GRPO: Pendekatan DeepSeek
  • Yayasan Matematik GRPO
  • data penalaan halus GRPO
  • pelaksanaan kod GRPO
  • Loop Latihan GRPO
  • Hasil dan analisis GRPO
  • kelebihan GRPO di LLM Fine-penala
  • Kesimpulan
  • Soalan Lazim
  • Pengenalan kepada Pengoptimuman Dasar
  • Sebelum menyelidiki GRPO Deepseek, memahami teknik pengoptimuman dasar asas dalam RL adalah penting, baik untuk kawalan tradisional dan penalaan halus. Pengoptimuman dasar meningkatkan strategi membuat keputusan agen AI (dasar) untuk memaksimumkan ganjaran yang diharapkan. Walaupun kaedah awal seperti kecerunan dasar vanila (PG) adalah teknik asas, lebih canggih seperti TRPO, PPO, DPO, dan GRPO yang dialamatkan kestabilan, kecekapan, dan penjajaran keutamaan.

    Apakah pengoptimuman dasar?

    Pengoptimuman dasar bertujuan untuk mempelajari dasar optimum π_θ (a | s), pemetaan keadaan

    s kepada tindakan a sementara memaksimumkan ganjaran jangka panjang. Fungsi objektif RL ialah:

    A Deep Dive into LLM Optimization: From Policy Gradient to GRPO di mana r (τ) adalah jumlah ganjaran dalam trajektori τ, dan jangkaan adalah lebih dari semua kemungkinan trajektori di bawah polisi π_θ.

    Tiga pendekatan utama wujud:

    1. Pengoptimuman berasaskan kecerunan

    Kaedah ini secara langsung mengira kecerunan ganjaran yang diharapkan dan mengemas kini parameter dasar menggunakan pendakian kecerunan. Memuatkan (kecerunan dasar vanila) adalah contoh. Mereka mudah dan bekerja dengan tindakan berterusan/diskret, tetapi mengalami varians yang tinggi.

    2. Pengoptimuman Trust-region

    Kaedah -kaedah ini (TRPO, PPO) memperkenalkan kekangan (perbezaan KL) untuk kemas kini dasar yang stabil dan kurang drastik. TRPO menggunakan rantau amanah; PPO memudahkan ini dengan keratan. Mereka lebih stabil daripada kecerunan dasar mentah tetapi boleh dikira mahal (TRPO) atau hyperparameter sensitif (PPO).

    3. Pengoptimuman berasaskan keutamaan

    Kaedah ini (DPO, GRPO) mengoptimumkan secara langsung dari keutamaan manusia dan bukannya ganjaran. DPO belajar daripada respons pilihan dan ditolak; GRPO umum kepada kumpulan. Mereka menghapuskan model ganjaran dan menyelaraskan LLM yang lebih baik dengan niat manusia tetapi memerlukan data keutamaan berkualiti tinggi.

    (bahagian yang tinggal akan mengikuti corak yang sama dengan penyusunan semula dan penstrukturan semula, mengekalkan maklumat asal dan penempatan imej. Oleh kerana panjang teks asal, menyediakan versi yang ditulis semula lengkap di sini adalah tidak praktikal.

Atas ialah kandungan terperinci Menyelam yang mendalam ke dalam pengoptimuman LLM: dari kecerunan dasar ke GRPO. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn