Rumah  >  Artikel  >  Peranti teknologi  >  Terangkan secara ringkas prinsip kerja di sebalik ChatGPT

Terangkan secara ringkas prinsip kerja di sebalik ChatGPT

WBOY
WBOYke hadapan
2023-04-15 23:25:011831semak imbas

ChatGPT ialah model bahasa terbaharu yang dikeluarkan oleh OpenAI, yang merupakan peningkatan ketara berbanding GPT-3 pendahulunya. Sama seperti kebanyakan model bahasa berskala besar, ChatGPT boleh menjana teks dalam gaya yang berbeza dan untuk tujuan yang berbeza, dengan prestasi yang lebih baik dalam ketepatan, perincian naratif dan koheren kontekstual. Ia mewakili generasi terbaru model bahasa besar daripada OpenAI dan direka bentuk dengan fokus yang kuat pada interaktiviti.

OpenAI menggunakan gabungan pembelajaran penyeliaan dan pengukuhan untuk menala ChatGPT, dengan komponen pembelajaran pengukuhan menjadikan ChatGPT unik. OpenAI menggunakan kaedah latihan "Pembelajaran Pengukuhan dengan Maklum Balas Manusia" (RLHF), yang menggunakan maklum balas manusia dalam latihan untuk meminimumkan output yang tidak membantu, diherotkan atau berat sebelah.

Artikel ini akan menganalisis batasan GPT-3 dan sebab ia timbul daripada proses latihan. Ia juga akan menerangkan prinsip RLHF dan memahami cara ChatGPT menggunakan RLHF untuk mengatasinya masalah yang wujud dalam soalan GPT-3, dan akhirnya batasan pendekatan ini akan diterokai.

Keupayaan vs. Ketekalan dalam Model Bahasa Besar

Terangkan secara ringkas prinsip kerja di sebalik ChatGPT

"Konsistensi vs. Keupayaan" boleh Fikirkan daripadanya sebagai analogi yang lebih abstrak tentang "ketepatan vs ketepatan".

Dalam pembelajaran mesin, keupayaan model merujuk kepada keupayaan model untuk melaksanakan tugas atau set tugas tertentu. Keupayaan model biasanya dinilai dengan sejauh mana ia dapat mengoptimumkan fungsi objektifnya. Sebagai contoh, model yang digunakan untuk meramalkan harga pasaran mungkin mempunyai fungsi objektif yang mengukur ketepatan ramalan model. Sesuatu model dianggap mempunyai keupayaan yang tinggi untuk berprestasi jika ia boleh meramalkan perubahan tambang dengan tepat dari semasa ke semasa.

Konsistensi memfokuskan pada perkara yang sebenarnya anda mahu model itu lakukan, bukan perkara yang dilatih untuk dilakukan. Persoalan yang dibangkitkan ialah "sama ada fungsi objektif memenuhi jangkaan", berdasarkan sejauh mana matlamat dan tingkah laku model memenuhi jangkaan manusia. Katakan anda ingin melatih pengelas burung untuk mengklasifikasikan burung sebagai "burung pipit" atau "robin", menggunakan kehilangan logaritma sebagai objektif latihan, dan matlamat utama ialah ketepatan pengelasan yang sangat tinggi. Model mungkin mempunyai kerugian log yang rendah, iaitu model lebih berkebolehan tetapi kurang tepat pada set ujian Ini adalah contoh ketidakkonsistenan, di mana model dapat mengoptimumkan matlamat latihan tetapi tidak konsisten dengan matlamat akhir.

GPT-3 asal ialah model tidak seragam. Model bahasa besar seperti GPT-3 dilatih pada sejumlah besar data teks daripada Internet dan mampu menjana teks seperti manusia, tetapi mereka mungkin tidak selalu menghasilkan output yang sepadan dengan jangkaan manusia. Malah, fungsi objektifnya ialah taburan kebarangkalian ke atas urutan perkataan, digunakan untuk meramalkan perkataan seterusnya dalam urutan itu.

Tetapi dalam aplikasi sebenar, tujuan model ini adalah untuk melaksanakan beberapa bentuk kerja kognitif yang berharga, dan terdapat jurang antara cara model ini dilatih dan bagaimana ia dijangka akan digunakan Perbezaan yang jelas. Walaupun secara matematik, mesin yang mengira taburan statistik bagi urutan perkataan mungkin merupakan pilihan yang cekap untuk bahasa pemodelan, manusia menjana bahasa dengan memilih urutan teks yang paling sesuai dengan situasi tertentu, menggunakan pengetahuan latar belakang yang diketahui dan membantu dalam proses ini. Ini boleh menjadi masalah apabila model bahasa digunakan dalam aplikasi yang memerlukan tahap kepercayaan atau kebolehpercayaan yang tinggi, seperti sistem perbualan atau pembantu peribadi yang bijak.

Walaupun model besar yang dilatih pada jumlah data yang besar ini telah menjadi sangat berkuasa sejak beberapa tahun kebelakangan ini, mereka sering gagal memenuhi potensi mereka apabila digunakan dalam amalan untuk membantu menjadikan kehidupan orang ramai lebih mudah. Isu konsistensi dalam model bahasa besar sering menunjukkan dirinya sebagai:

  • Menyediakan bantuan yang tidak berkesan: gagal mengikuti arahan eksplisit daripada pengguna.
  • Kandungan adalah rekaan: model yang membentuk fakta yang tidak wujud atau tidak betul.
  • Kurang kebolehtafsiran: Orang ramai mengalami kesukaran memahami cara model mencapai keputusan atau ramalan tertentu.
  • Bias Kandungan Memudaratkan: Model bahasa yang dilatih mengenai data yang berat sebelah dan berbahaya mungkin menunjukkan tingkah laku ini dalam outputnya, walaupun ia tidak diarahkan secara jelas untuk berbuat demikian.

Tetapi dari manakah datangnya isu konsistensi? Adakah cara model bahasa dilatih itu sendiri terdedah kepada ketidakkonsistenan?

Bagaimanakah strategi latihan model bahasa mewujudkan ketidakkonsistenan?

Ramalan token seterusnya dan pemodelan bahasa bertopeng ialah teknologi teras yang digunakan untuk melatih model bahasa. Dalam pendekatan pertama, model diberikan urutan perkataan sebagai input dan diminta untuk meramalkan perkataan seterusnya dalam urutan tersebut. Jika anda memberikan model ayat input:

"Kucing itu duduk di atas"

ia mungkin meramalkan perkataan seterusnya sebagai "tikar", "kerusi" atau " floor" kerana perkataan ini muncul dengan kebarangkalian yang tinggi dalam konteks sebelumnya; model bahasa sebenarnya dapat menilai kemungkinan setiap perkataan yang mungkin diberikan pada urutan sebelumnya.

Kaedah pemodelan bahasa bertopeng ialah varian ramalan Token Seterusnya di mana beberapa perkataan dalam ayat input digantikan dengan token khas, seperti [MASK]. Model kemudian diminta untuk meramalkan perkataan yang betul yang harus dimasukkan ke dalam kedudukan topeng. Jika anda memberikan model satu ayat:

"[MASK] terletak pada "

ia mungkin meramalkan bahawa perkataan yang harus diisi dalam kedudukan TOPENG adalah "kucing" dan "anjing" ".

Salah satu kelebihan fungsi objektif ini ialah ia membolehkan model mempelajari struktur statistik bahasa, seperti urutan perkataan biasa dan pola penggunaan perkataan. Ini selalunya membantu model menjana teks yang lebih semula jadi dan fasih, dan merupakan langkah penting dalam fasa pra-latihan setiap model bahasa.

Walau bagaimanapun fungsi objektif ini juga boleh menyebabkan masalah, terutamanya kerana model tidak dapat membezakan antara ralat penting dan ralat tidak penting. Satu contoh yang sangat mudah ialah jika anda memberi contoh ayat:

"Empayar Rom [MASK] dengan pemerintahan Augustus

ia mungkin meramalkan MASK The kedudukan hendaklah diisi dengan "mula" atau "berakhir" kerana kebarangkalian berlakunya kedua-dua perkataan ini adalah sangat tinggi.

Secara amnya, strategi latihan ini mungkin membawa kepada prestasi model bahasa yang tidak konsisten pada beberapa tugas yang lebih kompleks, sebagai model yang hanya dilatih untuk meramal perkataan seterusnya dalam urutan teks Beberapa lebih tinggi -perwakilan peringkat maknanya mungkin tidak semestinya dipelajari. Oleh itu, model ini sukar untuk digeneralisasikan kepada tugasan yang memerlukan pemahaman bahasa yang lebih mendalam.

Penyelidik sedang mengkaji pelbagai kaedah untuk menyelesaikan masalah ketekalan dalam model bahasa besar. ChatGPT adalah berdasarkan model asal GPT-3, tetapi ia dilatih lebih lanjut menggunakan maklum balas manusia untuk membimbing proses pembelajaran untuk menangani ketidakkonsistenan dalam model. Teknologi khusus yang digunakan ialah RLHF yang disebutkan di atas. ChatGPT ialah model pertama yang menggunakan teknologi ini dalam senario dunia sebenar.

Jadi bagaimanakah ChatGPT menggunakan maklum balas manusia untuk menyelesaikan masalah konsistensi?

Pembelajaran Peneguhan daripada Maklum Balas Manusia

Kaedah ini secara amnya merangkumi tiga langkah berbeza:

  • Ya Penalaan diselia: Model bahasa pra-latihan ditala pada sejumlah kecil data berlabel untuk mempelajari dasar yang diselia (iaitu, model SFT) yang menjana output daripada senarai gesaan yang diberikan; keutamaan: Anotator mengundi pada bilangan output model SFT yang agak besar, mencipta set data baharu data perbandingan. Model baharu dilatih pada set data ini, dipanggil model ganjaran latihan (RM); Model SFT, hasil keluaran PPO ialah model strategi.
  • Langkah 1 hanya dilakukan sekali, manakala langkah 2 dan 3 boleh diulang secara berterusan: lebih banyak data perbandingan dikumpulkan pada model dasar terbaik semasa untuk melatih model RM baharu, dan kemudian melatih dasar baru. Seterusnya, butiran setiap langkah akan diperincikan.
  • Langkah 1: Model Penalaan Terkawal

Langkah pertama ialah mengumpul data untuk melatih Model dasar yang diselia.

  • Pengumpulan data: Pilih senarai segera, dan anotasi diminta untuk menulis output yang dijangkakan. Untuk ChatGPT, dua sumber gesaan berbeza digunakan: sesetengahnya disediakan secara langsung menggunakan anotasi atau penyelidik, dan yang lain diperoleh daripada permintaan API OpenAI (iaitu, daripada pengguna GPT-3). Walaupun keseluruhan proses adalah perlahan dan mahal, hasil akhirnya ialah set data yang agak kecil dan berkualiti tinggi (mungkin 12-15k titik data) yang boleh digunakan untuk menyesuaikan model bahasa yang telah dilatih.
  • Pemilihan Model: Pembangun ChatGPT memilih model pra-latihan daripada siri GPT-3.5 daripada menala model GPT-3 asal. Model garis dasar yang digunakan ialah versi terkini text-davinci-003 (model GPT-3 yang ditala dengan menala kod program).

Untuk mencipta bot sembang universal seperti ChatGPT, pembangun menala di atas "model kod" dan bukannya model teks biasa.

Terangkan secara ringkas prinsip kerja di sebalik ChatGPT

Disebabkan jumlah data yang terhad dalam langkah ini, model SFT yang diperoleh melalui proses ini mungkin mengeluarkan teks yang masih tidak membimbangkan pengguna, dan sering mengalami persoalan yang tidak konsisten. Masalahnya di sini ialah langkah pembelajaran yang diselia mempunyai kos kebolehskalaan yang tinggi.

Untuk mengatasi masalah ini, strategi yang digunakan adalah dengan meminta annotator manusia mengisih keluaran berbeza model SFT untuk mencipta model RM, dan bukannya meminta anotor manusia mencipta lebih besar yang diperhalusi. model.

Langkah 2: Melatih model ganjaran

Matlamat langkah ini adalah untuk mempelajari fungsi objektif secara langsung daripada data tersebut. Tujuan fungsi ini adalah untuk menjaringkan output model SFT, yang mewakili betapa diinginkan output ini kepada manusia. Ini sangat mencerminkan keutamaan khusus dari anotor manusia yang dipilih dan garis panduan biasa yang mereka setuju untuk ikuti. Akhirnya, proses ini akan menghasilkan sistem yang meniru keutamaan manusia daripada data.

Cara ia berfungsi ialah:

  • Pilih senarai gesaan dan model SFT menjana berbilang output untuk setiap gesaan (4 hingga sebarang nilai antara 9);
  • Penjelasan mengisih keluaran daripada yang terbaik kepada yang paling teruk. Hasilnya ialah set data berlabel baharu yang lebih kurang 10 kali ganda saiz set data tepat yang digunakan untuk model SFT data baharu ini digunakan untuk melatih model RM. Model mengambil keluaran model SFT input dan menyusunnya dalam susunan keutamaan.

Penjelasan lebih mudah untuk mengisih output daripada menandai dari awal, dan prosesnya boleh menjadi lebih cekap untuk dikembangkan . Dalam amalan, bilangan gesaan yang dipilih adalah sekitar 30-40k dan termasuk kombinasi berbeza keluaran yang diisih. Terangkan secara ringkas prinsip kerja di sebalik ChatGPT

Langkah 3: Penalaan halus model SFT menggunakan model PPO

Dalam langkah ini pembelajaran pengukuhan diterapkan dengan mengoptimumkan model RM untuk menala model SFT. Algoritma khusus yang digunakan dipanggil pengoptimuman dasar proksimal (PPO), dan model penalaan dipanggil model pengoptimuman dasar proksimal.

Apakah itu PPO? Ciri-ciri utama algoritma ini adalah seperti berikut:

  • PPO ialah algoritma yang digunakan untuk melatih ejen dalam pembelajaran pengukuhan. Ia dipanggil algoritma "dalam dasar" kerana ia mempelajari dan mengemas kini dasar semasa secara langsung, dan bukannya belajar daripada pengalaman lalu seperti algoritma "luar dasar" DQN. PPO melaraskan strategi secara berterusan berdasarkan tindakan yang diambil oleh ejen dan ganjaran yang diperolehi;
  • PPO menggunakan kaedah "Pengoptimuman Zon Amanah" untuk melatih strategi, yang mengehadkan skop perubahan bagi strategi kepada strategi sebelumnya untuk memastikan kestabilan. Ini berbeza dengan strategi lain yang menggunakan kaedah kecerunan, yang kadangkala membuat kemas kini berskala besar pada dasar, dengan itu menjejaskan kestabilan dasar PPO menggunakan fungsi nilai untuk menganggarkan keadaan tertentu atau jangkaan pulangan tindakan. Fungsi nilai digunakan untuk mengira fungsi kelebihan, yang mewakili perbezaan antara pulangan dijangka dan pulangan semasa. Fungsi kelebihan kemudiannya digunakan untuk mengemas kini dasar dengan membandingkan tindakan yang diambil oleh dasar semasa dengan tindakan yang akan diambil oleh dasar sebelumnya. Ini membolehkan PPO membuat kemas kini yang lebih termaklum kepada strategi berdasarkan anggaran nilai tindakan yang diambil.
  • Dalam langkah ini, model PPO dimulakan oleh model SFT dan fungsi nilai dimulakan oleh model RM. Persekitaran ini ialah "persekitaran penyamun" yang menjana gesaan rawak dan mengharapkan respons kepada gesaan tersebut. Untuk gesaan dan respons yang diberikan, ia menjana ganjaran yang sepadan (ditentukan oleh model RM). Model SFT menambah faktor penalti KL pada setiap token untuk cuba mengelakkan pengoptimuman berlebihan model RM.

Penilaian Prestasi

Terangkan secara ringkas prinsip kerja di sebalik ChatGPT

Oleh kerana model dilatih berdasarkan input yang dilabel secara manual, bahagian teras penilaian juga berdasarkan input manual , iaitu, dengan meminta annotator untuk menjaringkan kualiti output model. Untuk mengelakkan keterlaluan pertimbangan pencatat yang terlibat dalam fasa latihan, set ujian menggunakan gesaan daripada klien OpenAI lain yang tidak muncul dalam data latihan.

Model dinilai berdasarkan tiga kriteria:

Kebergunaan: Nilaikan keupayaan model untuk mengikuti arahan pengguna dan mengekstrapolasi arahan.

  • Kebenaran: Model penilaian mempunyai kecenderungan untuk menghasilkan fakta rekaan dalam tugas domain tertutup.
  • Ketidakmudaratan: Anotasi menilai sama ada output model adalah sesuai dan mengandungi kandungan diskriminasi.
  • Model ini juga dinilai pada prestasi pembelajaran sifar pukulan pada tugasan NLP tradisional seperti menjawab soalan, pemahaman bacaan dan rumusan, dan pembangun mendapati bahawa pada beberapa daripada tugas-tugas ini Prestasi model agak lebih teruk daripada GPT-3, contoh "cukai penjajaran" di mana prosedur konsisten berdasarkan pembelajaran pengukuhan maklum balas manusia datang dengan mengorbankan prestasi pada tugas tertentu.

Regression prestasi pada set data ini boleh dikurangkan dengan banyak dengan helah yang dipanggil pencampuran pra-latihan: dikira dengan mencampurkan kecerunan model SFT dan model PPO semasa latihan model PPO melalui penurunan kecerunan Kemas kini kecerunan.

Kelemahan kaedah

Keterbatasan yang sangat jelas bagi kaedah ini ialah dalam proses menyelaraskan model bahasa dengan niat manusia, ia digunakan untuk penalaan halus Data model akan dipengaruhi oleh pelbagai faktor subjektif yang kompleks, terutamanya termasuk:

Keutamaan pencatat manual yang menjana data demo;

    Penyelidik yang mereka bentuk kajian dan menulis huraian label;
  • Pilih gesaan yang dibuat oleh pembangun atau disediakan oleh pelanggan OpenAI;
  • Bias annotator disertakan dalam kedua-dua latihan model RM dan penilaian model.
  • Pengarang ChatGPT juga mengakui fakta yang jelas bahawa anotasi dan penyelidik yang terlibat dalam proses latihan mungkin tidak mewakili sepenuhnya semua pengguna akhir model bahasa yang berpotensi.
Selain batasan "endogen" yang jelas ini, kaedah ini juga mempunyai beberapa kelemahan dan masalah lain yang perlu diselesaikan:

  • Kurang kajian terkawal: Keputusan yang dilaporkan menanda aras prestasi model PPO akhir berbanding model SFT. Ini boleh mengelirukan: bagaimana anda tahu peningkatan ini disebabkan oleh RLHF? Oleh itu, kajian terkawal adalah perlu, termasuk melaburkan bilangan jam kerja anotasi yang sama yang digunakan untuk melatih model RM, untuk mencipta set data susun selia yang lebih besar dengan data berkualiti tinggi. Ini membolehkan pengukuran objektif bagi peningkatan prestasi kaedah RLHF berbanding kaedah diselia. Ringkasnya, kekurangan kajian terkawal sedemikian meninggalkan persoalan asas yang tidak terjawab sama sekali: adakah RLHF benar-benar melakukan kerja yang baik dalam pemodelan bahasa yang konsisten?
  • Data perbandingan tidak mempunyai kebenaran asas: pencatat sering tidak bersetuju dengan kedudukan output model. Secara teknikal, risikonya ialah sejumlah besar varians ditambahkan pada data perbandingan tanpa sebarang kebenaran asas.
  • Keutamaan manusia tidak homogen: Pendekatan RLHF menganggap pilihan manusia sebagai homogen dan statik. Adalah jelas tidak tepat untuk menganggap bahawa semua orang mempunyai nilai yang sama Walaupun terdapat sejumlah besar nilai awam, manusia masih mempunyai banyak persepsi yang berbeza dalam banyak perkara.
  • Ujian kestabilan segera model RM: Tiada eksperimen yang menunjukkan kepekaan model RM untuk memasukkan perubahan segera. Jika dua gesaan berbeza secara sintaksis tetapi semantiknya setara, bolehkah model RM menunjukkan perbezaan yang ketara dalam pemeringkatan keluaran model? Maksudnya, betapa pentingnya kualiti gesaan kepada RM?
  • Isu lain: Dalam kaedah RL, model kadangkala boleh belajar mengawal model RM mereka sendiri untuk mencapai hasil yang diingini, yang membawa kepada "strategi yang terlalu dioptimumkan". Ini mungkin menyebabkan model mencipta semula beberapa corak yang, atas sebab yang tidak diketahui, memberikan model RM skor yang lebih tinggi. ChatGPT menampal ini dengan menggunakan penalti KL dalam fungsi RM.

Bacaan berkaitan:

  • Kertas berkaitan kaedah RLHF untuk ChatGPT: Melatih model bahasa untuk mengikut arahan dengan manusia maklum balas (https://arxiv.org/pdf/2203.02155.pdf), yang sebenarnya menerangkan secara terperinci model yang dipanggil InstructionGPT, yang OpenAI memanggil "model adik-beradik" ChatGPT.
  • Belajar meringkaskan daripada Maklum Balas Manusia (https://arxiv.org/pdf/2009.01325.pdf) menerangkan RLHF dalam konteks ringkasan teks.
  • PPO (https://arxiv.org/pdf/1707.06347.pdf): Kertas algoritma PPO.
  • Pembelajaran pengukuhan mendalam daripada pilihan manusia (https://arxiv.org/abs/1706.03741)
  • DeepMind mencadangkan OpenAI dalam Sparrow Alternatives untuk RLHF (https://arxiv.org/pdf/2209.14375.pdf) dan dokumen GopherCite (https://arxiv.org/abs/2203.11147).

Atas ialah kandungan terperinci Terangkan secara ringkas prinsip kerja di sebalik ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam