Rumah >Peranti teknologi >AI >Cara Melatih LLM untuk 'Berfikir' (O1 & DeepSeek-R1)
Model Openai's O1, yang dilancarkan pada September 2024, mempamerkan keupayaan "penalaran lanjutan" melalui pembelajaran tetulang berskala besar. DeepSeek, sebuah makmal penyelidikan AI, telah berjaya mereplikasi tingkah laku ini dan secara terbuka menerbitkan metodologi mereka. Artikel ini meneroka konsep teras dan mekanisme asas kejayaan ini.
Model Openai's Openai Openai merevolusikan latihan model bahasa besar (LLM) dengan memperkenalkan token "pemikiran". Tanda -tanda khas ini bertindak sebagaipad gores, yang membolehkan model untuk memproses masalah secara sistematik dan pertanyaan pengguna. Penemuan utama adalah peningkatan prestasi dengan peningkatan masa ujian-lebih banyak token yang dihasilkan sama dengan respons yang lebih baik. Grafik berikut (dari blog Openai) menggambarkan ini:
token "pemikiran" O1 menandakan pemikiran rantaian pemikiran (COT) model. Kepentingan mereka adalah dua kali ganda: mereka jelas menggambarkan proses penalaran untuk pembangunan UI dan memberikan rekod yang boleh dibaca manusia mengenai proses pemikiran model. Walaupun Openai menyimpan butiran latihan rahsia, penyelidikan DeepSeek memberi penerangan tentang ini.
Penyelidikan DeepSeek
Penerbitan Januari 2025 DeepSeek, "
DeepSeek-R1: Incentivizing keupayaan penalaran di LLMS melalui pembelajaran tetulang" [2], melancarkan rahsia model O1. Mereka memperkenalkan DeepSeek-R1-Zero (terlatih semata-mata untuk pembelajaran tetulang) dan DeepSeek-R1 (campuran penalaan halus (SFT) dan RL). R1-Zero adalah penting kerana ia menghasilkan data latihan untuk R1 dan menunjukkan kebolehan penalaran yang muncul yang tidak diprogramkan secara eksplisit. R1-Zero Ditemui Cot dan ujian masa mengira skala melalui RL sahaja.
DeepSeek-R1-Zero (RL sahaja)
Pembelajaran Penguatkuasaan (RL) membolehkan model belajar melalui percubaan dan kesilapan, menerima isyarat ganjaran tanpa hubungan fungsional yang jelas untuk memodelkan parameter. Tiga aspek utama latihan R1-Zero diserlahkan:
Template Prompt:
<think></think>
<answer></answer>
isyarat ganjaran: Sistem berasaskan peraturan menilai ketepatan dan pemformatan, mengelakkan potensi "hacking ganjaran" yang sering dikaitkan dengan model ganjaran saraf.
GRPO (Pengoptimuman Dasar Relatif Kumpulan): Pendekatan RL ini mengagihkan respons untuk mengemaskini parameter model, menggabungkan keratan dan regularization KL untuk latihan yang stabil. Fungsi kerugian ditunjukkan di bawah:
keputusan R1-Zero (kebolehan muncul)
Hebatnya, R1-Zero secara tersirat belajar untuk meningkatkan respons melalui pengiraan masa ujian dan mempamerkan monolog dalaman seperti manusia, sering termasuk langkah-langkah pengesahan. Contohnya disediakan dalam artikel asal.
DeepSeek-R1 (SFT RL)
DeepSeek-R1 menangani masalah pembacaan R1-Zero melalui proses latihan empat langkah yang menggabungkan SFT dan RL:
sft dengan data penalaran: SFT awal menggunakan ribuan contoh COT yang panjang untuk menubuhkan kerangka penalaran.
R1-Zero Style RL (Ganjaran Konsistensi Bahasa): Latihan RL serupa dengan R1-Zero, tetapi dengan ganjaran konsistensi bahasa tambahan.
sft dengan data campuran: sft dengan data penalaran dan tidak bermusim untuk memperluaskan keupayaan model.
rl rlhf: Latihan RL akhir termasuk latihan penalaran dan RLHF untuk peningkatan yang lebih baik dan tidak berbahaya.
Mengakses R1-Zero dan R1
DeepSeek membuat berat model yang tersedia secara terbuka, membolehkan akses melalui pelbagai penyedia inferensi dan penyebaran tempatan (DeepSeek, bersama -sama, hiperbolik, ollama, memeluk muka).
Kesimpulan
O1 memperkenalkan ujian masa ujian sebagai dimensi baru untuk penambahbaikan LLM. Replikasi Deepseek dan penerbitan terbuka menunjukkan bahawa pembelajaran tetulang secara bebas dapat menghasilkan model yang melampaui batasan pengetahuan manusia yang ada. Ini membuka kemungkinan menarik untuk kemajuan saintifik dan teknologi masa depan.
[Nota: Pautan ke sumber luaran telah ditinggalkan kerana ia tidak berkaitan dengan kandungan yang diubahsuai dan boleh dianggap promosi.]
Atas ialah kandungan terperinci Cara Melatih LLM untuk 'Berfikir' (O1 & DeepSeek-R1). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!