Rumah >Peranti teknologi >AI >Ketahui dengan cepat perkara teknikal utama kertas InstructGPT: ikuti Li Mu untuk menguasai teknologi di sebalik ChatGPT
Selepas ChatGPT menjadi popular, ramai pelajar yang meminati teknologi bertanyakan soalan: Adakah terdapat bahan pembelajaran yang membolehkan kita memahami secara sistematik prinsip di sebalik ChatGPT? Masalah ini menjadi rumit kerana OpenAI belum mengeluarkan kertas kerja berkaitan ChatGPT.
Walau bagaimanapun, kami tahu dari blog OpenAI tentang ChatGPT bahawa kaedah yang digunakan oleh ChatGPT adalah sama dengan model saudaranya-InstructGPT, kecuali InstructGPT diperhalusi pada GPT-3 , manakala ChatGPT adalah berdasarkan GPT-3.5. Terdapat juga beberapa perbezaan antara keduanya dari segi pengumpulan data.
Pautan blog: https://openai.com/blog/chatgpt/
Kertas InstructGPT telah dikeluarkan pada Mac 2022, tetapi OpenAI menerbitkan blog berkaitan seawal Januari (lihat "Apa yang perlu dilakukan dengan karut GPT-3? OpenAI: Kami melatihnya semula" , versi baharu lebih "taat"). Pada masa itu, OpenAI dengan jelas menyebut bahawa InstructGPT menggunakan kaedah pembelajaran pengukuhan maklum balas manusia (RLHF) untuk memperhalusi GPT-3, menjadikan output model lebih konsisten dengan pilihan manusia Ini telah diteruskan dalam latihan ChatGPT.
Pautan kertas: https://arxiv.org/pdf/2203.02155.pdf
Selain itu, terdapat banyak persamaan antara InstructGPT dan ChatGPT. Oleh itu, pemahaman yang menyeluruh tentang kertas InstructGPT akan memberi manfaat yang besar kepada pelajar yang ingin melakukan beberapa kerja ke arah ChatGPT. Itulah sebabnya kami sangat mengesyorkan kuliah Li Mu.
Alamat kursus: https://jmq.xet.tech/s/2lec6b (Klik "Baca Teks asal" boleh diakses terus)
Dr. Li Mu ialah ketua saintis kanan di Amazon. Beliau sebelum ini mengarang bersama "Hands-on Deep Learning" dengan Aston Zhang dan lain-lain. Dalam dua tahun yang lalu, beliau telah memperkenalkan pelbagai pengetahuan AI kepada semua orang melalui video dan menghasilkan kursus membaca intensif pada berpuluh-puluh kertas kerja. Ramai pelajar telah mengembangkan tabiat membaca kertas secara intensif dengan Li Mu.
Akaun Dr Li Mu di Stesen B ialah “Belajar AI daripada Li Mu”.
Kursus tafsiran untuk InstructGPT ini mengambil masa selama 67 minit, dan pada asasnya diperkenalkan mengikut urutan penulisan kertas kerja.
Pelajar yang telah membaca blog ChatGPT tahu bahawa prinsip teknikalnya pada asasnya boleh diringkaskan dalam satu gambar juga gambar yang telah muncul dalam kertas InstructGPT (terdapat perbezaan halus antara keduanya). Apabila mentafsir abstrak dan pengenalan kertas, Li Mu memperkenalkan tiga langkah dalam rajah secara terperinci.
Skema teknikal dari blog ChatGPT.
Skema teknikal daripada kertas InstructGPT.
Dalam bab ketiga kertas kerja, pengarang InstructGPT mula-mula memperkenalkan kaedah dan proses pemerolehan data mereka, dan Li Mu turut membawa semua orang membacanya secara terperinci. Bahagian ini sangat berharga dalam kejuruteraan. Seperti yang dikatakan Li Mu, jika anda tidak pernah melakukan perkara seperti ini sebelum ini (pelabelan data, dsb.) dan perlu mencari seseorang untuk membantu anda melabel data, maka anda boleh melihat lampirannya, yang mengandungi banyak templat yang boleh digunakan secara langsung. Pengarang makalah Ia juga menerangkan rupa UI tapak web beranotasi mereka, yang patut dipelajari.
Seterusnya, Li Mu menumpukan perhatian kepada tiga model yang ditulis dalam Bab 3 (lihat Model 3.5) - model SFT (Penalaan halus diselia), model RM (Pemodelan ganjaran) dan RL (Pembelajaran pengukuhan)), termasuk butiran seperti parameter dan fungsi objektif yang terlibat dalam model ini.
Akhirnya, Li Mu membuat kesimpulan bahawa dari segi teknikal, InstructGPT masih merupakan teknologi yang sangat praktikal. Ia memberitahu semua orang satu kaedah: memandangkan model bahasa yang besar, bagaimana anda boleh meningkatkan prestasinya dengan cepat dalam bidang yang anda minati melalui beberapa data beranotasi untuk menjadikannya praktikal. Oleh itu, ia menyediakan idea operasi untuk orang yang ingin menggunakan model generatif untuk membuat produk.
Sudah tentu, seperti yang dikatakan oleh Dr. Li Mu, kerja penyelidikan saintifik adalah langkah demi langkah, dan InstructGPT juga berdasarkan penyelidikan terdahulu, jadi pelajar yang ingin memahami sepenuhnya ChatGPT akan tidak dapat tidak perlu kembali dan membacanya. Dalam kursus sebelumnya, Li Mu juga mentafsir kertas GPT, GPT-2 dan GPT-3 secara terperinci:
Alamat kursus: https://jmq.xet.tech/s/2lec6b
Atas ialah kandungan terperinci Ketahui dengan cepat perkara teknikal utama kertas InstructGPT: ikuti Li Mu untuk menguasai teknologi di sebalik ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!