Rumah >Peranti teknologi >AI >Cara Melatih LLM untuk 'Berfikir' (O1 & DeepSeek-R1)

Cara Melatih LLM untuk 'Berfikir' (O1 & DeepSeek-R1)

Patricia Arquette
Patricia Arquetteasal
2025-03-04 10:37:11289semak imbas

Model Openai's O1, yang dilancarkan pada September 2024, mempamerkan keupayaan "penalaran lanjutan" melalui pembelajaran tetulang berskala besar. DeepSeek, sebuah makmal penyelidikan AI, telah berjaya mereplikasi tingkah laku ini dan secara terbuka menerbitkan metodologi mereka. Artikel ini meneroka konsep teras dan mekanisme asas kejayaan ini.

Model Openai's Openai Openai merevolusikan latihan model bahasa besar (LLM) dengan memperkenalkan token "pemikiran". Tanda -tanda khas ini bertindak sebagaipad gores, yang membolehkan model untuk memproses masalah secara sistematik dan pertanyaan pengguna. Penemuan utama adalah peningkatan prestasi dengan peningkatan masa ujian-lebih banyak token yang dihasilkan sama dengan respons yang lebih baik. Grafik berikut (dari blog Openai) menggambarkan ini:

How to Train LLMs to “Think” (o1 & DeepSeek-R1)

Plot kiri menunjukkan undang-undang skala saraf yang ditubuhkan, di mana latihan yang lebih lama (pengiraan masa kereta api) meningkatkan prestasi. Plot yang betul mendedahkan undang-undang skala novel: peningkatan penjanaan token semasa kesimpulan (pengiraan masa ujian) meningkatkan prestasi.

How to Train LLMs to “Think” (o1 & DeepSeek-R1)

Token berfikir

token "pemikiran" O1 menandakan pemikiran rantaian pemikiran (COT) model. Kepentingan mereka adalah dua kali ganda: mereka jelas menggambarkan proses penalaran untuk pembangunan UI dan memberikan rekod yang boleh dibaca manusia mengenai proses pemikiran model. Walaupun Openai menyimpan butiran latihan rahsia, penyelidikan DeepSeek memberi penerangan tentang ini.

Penyelidikan DeepSeek

Penerbitan Januari 2025 DeepSeek, "

DeepSeek-R1: Incentivizing keupayaan penalaran di LLMS melalui pembelajaran tetulang

" [2], melancarkan rahsia model O1. Mereka memperkenalkan DeepSeek-R1-Zero (terlatih semata-mata untuk pembelajaran tetulang) dan DeepSeek-R1 (campuran penalaan halus (SFT) dan RL). R1-Zero adalah penting kerana ia menghasilkan data latihan untuk R1 dan menunjukkan kebolehan penalaran yang muncul yang tidak diprogramkan secara eksplisit. R1-Zero Ditemui Cot dan ujian masa mengira skala melalui RL sahaja.

DeepSeek-R1-Zero (RL sahaja)

Pembelajaran Penguatkuasaan (RL) membolehkan model belajar melalui percubaan dan kesilapan, menerima isyarat ganjaran tanpa hubungan fungsional yang jelas untuk memodelkan parameter. Tiga aspek utama latihan R1-Zero diserlahkan:

Template Prompt:
    Templat mudah menggunakan
  1. dan tag untuk menyusun tindak balas model: <think></think> <answer></answer>
  2. yang minimum mendorong menghindari tindak balas biasing dan membolehkan evolusi semulajadi semasa rl.
  1. isyarat ganjaran: Sistem berasaskan peraturan menilai ketepatan dan pemformatan, mengelakkan potensi "hacking ganjaran" yang sering dikaitkan dengan model ganjaran saraf.

  2. GRPO (Pengoptimuman Dasar Relatif Kumpulan): Pendekatan RL ini mengagihkan respons untuk mengemaskini parameter model, menggabungkan keratan dan regularization KL untuk latihan yang stabil. Fungsi kerugian ditunjukkan di bawah:

How to Train LLMs to “Think” (o1 & DeepSeek-R1)

keputusan R1-Zero (kebolehan muncul)

Hebatnya, R1-Zero secara tersirat belajar untuk meningkatkan respons melalui pengiraan masa ujian dan mempamerkan monolog dalaman seperti manusia, sering termasuk langkah-langkah pengesahan. Contohnya disediakan dalam artikel asal.

DeepSeek-R1 (SFT RL)

DeepSeek-R1 menangani masalah pembacaan R1-Zero melalui proses latihan empat langkah yang menggabungkan SFT dan RL:

  1. sft dengan data penalaran: SFT awal menggunakan ribuan contoh COT yang panjang untuk menubuhkan kerangka penalaran.

  2. R1-Zero Style RL (Ganjaran Konsistensi Bahasa): Latihan RL serupa dengan R1-Zero, tetapi dengan ganjaran konsistensi bahasa tambahan.

  3. sft dengan data campuran: sft dengan data penalaran dan tidak bermusim untuk memperluaskan keupayaan model.

  4. rl rlhf: Latihan RL akhir termasuk latihan penalaran dan RLHF untuk peningkatan yang lebih baik dan tidak berbahaya.

Mengakses R1-Zero dan R1

DeepSeek membuat berat model yang tersedia secara terbuka, membolehkan akses melalui pelbagai penyedia inferensi dan penyebaran tempatan (DeepSeek, bersama -sama, hiperbolik, ollama, memeluk muka).

Kesimpulan

O1 memperkenalkan ujian masa ujian sebagai dimensi baru untuk penambahbaikan LLM. Replikasi Deepseek dan penerbitan terbuka menunjukkan bahawa pembelajaran tetulang secara bebas dapat menghasilkan model yang melampaui batasan pengetahuan manusia yang ada. Ini membuka kemungkinan menarik untuk kemajuan saintifik dan teknologi masa depan.

[Nota: Pautan ke sumber luaran telah ditinggalkan kerana ia tidak berkaitan dengan kandungan yang diubahsuai dan boleh dianggap promosi.]

Atas ialah kandungan terperinci Cara Melatih LLM untuk 'Berfikir' (O1 & DeepSeek-R1). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn