Rumah > Artikel > Peranti teknologi > Dugaan mengenai lapan isu teknikal ChatGPT
Melihat kelahiran ChatGPT yang mengagumkan, saya mempunyai emosi yang bercampur-campur, termasuk kegembiraan, terkejut dan panik. Apa yang membuatkan saya gembira dan terkejut ialah saya tidak menjangkakan untuk menyaksikan kejayaan besar dalam teknologi pemprosesan bahasa semula jadi (NLP) dengan begitu pantas dan mengalami pesona teknologi am yang tidak terhingga. Perkara yang menakutkan ialah ChatGPT hampir boleh menyelesaikan kebanyakan tugas dalam NLP dengan kualiti yang tinggi, dan secara beransur-ansur menyedari bahawa banyak arahan penyelidikan NLP telah menghadapi cabaran yang hebat.
Secara keseluruhannya, perkara yang paling menakjubkan tentang ChatGPT ialah kepelbagaiannya Berbanding dengan GPT-3, yang memerlukan gesaan yang sangat canggih untuk melaksanakan pelbagai NLP yang tidak begitu berkesan, ChatGPT telah menyebabkan pengguna tidak dapat melakukannya merasakan kewujudan gesaan.
Sebagai sistem dialog, ChatGPT membolehkan pengguna bertanya soalan secara semula jadi untuk mencapai pelbagai tugas daripada pemahaman kepada generasi, dan prestasinya hampir mencapai tahap terbaik semasa dalam bidang terbuka untuk banyak tugasan . Melangkaui model yang direka secara individu untuk tugasan tertentu dan cemerlang dalam pengaturcaraan kod.
Secara khusus, kebolehan pemahaman bahasa semula jadi (terutama kebolehan memahami niat pengguna) sangat menonjol, sama ada soalan dan jawapan, sembang, klasifikasi, ringkasan, terjemahan dan tugasan lain, walaupun jawapannya mungkin tidak lengkap Betul, tetapi hampir selalu memahami niat pengguna, dan keupayaan pemahaman adalah jauh di luar jangkaan.
Berbanding dengan keupayaan pemahamannya, keupayaan penjanaan ChatGPT adalah lebih berkuasa dan boleh menjana teks panjang dengan logik dan kepelbagaian tertentu untuk pelbagai soalan. Secara umum, ChatGPT lebih menakjubkan dan merupakan peringkat awal ke arah AGI Ia akan menjadi lebih berkuasa selepas beberapa kesesakan teknikal diselesaikan.
Sudah ada banyak ringkasan kes prestasi ChatGPT Di sini saya meringkaskan sebahagian besar pemikiran saya tentang isu teknikal ChatGPT Ia boleh dianggap sebagai ringkasan ringkas selama lebih daripada dua bulan interaksi dengan ChatGPT. Memandangkan kami tidak dapat memahami teknologi pelaksanaan khusus dan butiran ChatGPT, mereka hampir semua adalah dugaan subjektif. Dialu-alukan untuk membincangkannya bersama-sama.
Selagi kami menggunakan ChatGPT, kami akan mendapati bahawa ia bukanlah sistem dialog manusia-komputer dalam pengertian tradisional, tetapi sebenarnya adalah platform pemprosesan bahasa umum yang menggunakan bahasa semula jadi sebagai interaksi kaedah.
Walaupun GPT-3 pada tahun 2020 mempunyai prototaip keupayaan umum, ia memerlukan gesaan yang direka dengan teliti untuk mencetuskan fungsi yang sepadan, dan ChatGPT membolehkan pengguna mengenal pastinya dengan tepat dengan menggunakan soalan yang sangat wajar untuk menyelesaikan pelbagai fungsi. Kaedah tradisional selalunya mengenal pasti niat pengguna dahulu, dan kemudian memanggil modul pemprosesan dengan fungsi yang sepadan untuk niat yang berbeza Contohnya, mengenal pasti ringkasan atau niat terjemahan melalui data pengguna, dan kemudian memanggil ringkasan teks atau model terjemahan mesin.
Ketepatan kaedah tradisional dalam pengecaman niat dalam domain terbuka adalah tidak ideal, dan modul berfungsi yang berbeza berfungsi secara bebas dan tidak boleh berkongsi maklumat, menjadikannya sukar untuk membentuk platform universal NLP yang berkuasa. ChatGPT memecahkan model yang berasingan dan tidak lagi membezakan antara fungsi yang berbeza Ia disatukan sebagai keperluan khusus dalam proses perbualan. Jadi, mengapa ChatGPT sangat serba boleh? Saya telah memikirkan isu ini untuk masa yang lama Memandangkan tiada pengesahan percubaan bersyarat, saya hanya boleh meneka.
Menurut FLAN kerja penyelidikan Penalaan Arahan Google, apabila model mencapai saiz tertentu (cth. 68B) dan jenis tugasan Arahan mencapai bilangan tertentu (cth. 40), model akan muncul dengan keupayaan pengecaman niat baharu. OpenAI mengumpul data dialog pelbagai jenis tugas daripada pengguna global daripada API terbukanya, mengklasifikasikan dan menganotasikannya mengikut niat, dan kemudian melakukan Penalaan Arahan pada parameter 175B keupayaan pengecaman niat Universal muncul secara semula jadi.
Masalah melupakan bencana sentiasa menjadi cabaran dalam pembelajaran mendalam, selalunya kerana selepas latihan pada tugas tertentu, prestasi pada tugas lain hilang. Contohnya, jika model asas dengan 3 bilion parameter diperhalusi terlebih dahulu pada data soalan dan jawapan automatik, dan kemudian diperhalusi pada berbilang pusingan data dialog, ia akan mendapati bahawa keupayaan soal jawab model telah menurun dengan ketara. ChatGPT nampaknya tidak mempunyai masalah ini Ia telah membuat dua penalaan halus pada model asas GPT-3.5 Penalaan halus pertama adalah berdasarkan data perbualan beranotasi secara manual, dan penalaan halus kedua adalah berdasarkan pembelajaran pengukuhan. maklum balas manusia. Data yang digunakan untuk penalaan halus adalah sangat kecil, terutamanya kurang data pemarkahan dan pengisihan maklum balas manusia.
Ini adalah fenomena yang sangat menarik, dan ia juga merupakan fenomena yang kami tidak mempunyai syarat untuk mengesahkan. Mungkin terdapat dua sebab untuk spekulasi Di satu pihak, data penalaan halus dialog yang digunakan oleh ChatGPT sebenarnya boleh merangkumi pelbagai tugas NLP yang sangat komprehensif Seperti yang boleh dilihat daripada klasifikasi soalan pengguna menggunakan API dalam InstructGPT, banyak daripada mereka bukan perbualan mudah, tetapi juga Terdapat klasifikasi, soal jawab, ringkasan, terjemahan, penjanaan kod, dll. Oleh itu, ChatGPT sebenarnya memperhalusi beberapa tugas pada masa yang sama, apabila model asasnya; cukup besar, penalaan halus pada data yang lebih kecil tidak akan meningkatkan model mempunyai kesan yang besar dan hanya boleh dioptimumkan dalam kejiranan yang sangat kecil ruang parameter model asas, jadi ia tidak menjejaskan keupayaan umum model asas.
Apabila anda menggunakan ChatGPT, anda akan mendapati keupayaan yang sangat mengejutkan Walaupun selepas berinteraksi dengan ChatGPT selama lebih daripada sepuluh pusingan, ia masih mengingati maklumat dari pusingan pertama dan boleh menjadi lebih tepat mengikut. niat pengguna. Kenal pasti fenomena bahasa halus seperti peninggalan dan rujukan. Ini mungkin tidak kelihatan seperti masalah kepada kita manusia, tetapi dalam sejarah penyelidikan NLP, masalah seperti peninggalan dan rujukan sentiasa menjadi cabaran yang tidak dapat diatasi. Di samping itu, dalam sistem dialog tradisional, selepas terlalu banyak pusingan dialog, sukar untuk memastikan konsistensi topik.
Namun, ChatGPT hampir tidak mengalami masalah ini, dan nampaknya ia dapat mengekalkan konsistensi dan fokus topik perbualan walaupun lebih banyak pusingan. Ada spekulasi bahawa keupayaan ini mungkin datang dari tiga sumber. Pertama sekali, data dialog berbilang pusingan berkualiti tinggi adalah asas dan kunci Sama seperti LaMDA Google, OpenAI juga menggunakan anotasi manual untuk membina sejumlah besar data dialog berbilang pusingan yang berkualiti tinggi di atas ini akan merangsang data dialog pelbagai pusingan model.
Kedua, pembelajaran pengukuhan berdasarkan maklum balas manusia meningkatkan antropomorfisme tindak balas model, yang juga secara tidak langsung akan meningkatkan ketekalan model dalam pelbagai pusingan dialog. Akhirnya, keupayaan pemodelan eksplisit model sebanyak 8192 unit bahasa (Token) membolehkannya mengingati hampir seharian data perbualan orang biasa Adalah sukar untuk melebihi panjang ini dalam pertukaran perbualan. yang boleh meningkatkan keupayaan untuk mengadakan beberapa pusingan perbualan berturut-turut dengan ketara.
Keupayaan pembetulan interaktif ialah manifestasi kepintaran lanjutan Perkara yang biasa bagi kami ialah titik kesakitan mesin. Semasa proses komunikasi, apabila masalah ditunjukkan, kami akan segera menyedari masalah tersebut dan membetulkan maklumat yang berkaitan dengan segera dan tepat. Bukan mudah untuk mesin menyedari masalah, mengenal pasti skop masalah dan membetulkan maklumat yang sepadan setiap langkah. Sebelum kemunculan ChatGPT, kami tidak melihat model umum dengan keupayaan pembetulan interaktif yang kuat.
Selepas berinteraksi dengan ChatGPT, anda akan mendapati bahawa sama ada pengguna menukar pernyataan sebelumnya atau menunjukkan masalah dalam balasan ChatGPT, ChatGPT boleh menangkap niat pengubahsuaian dan mengenal pasti dengan tepat bahagian-bahagian itu perlu disemak akhirnya boleh diperbetulkan dengan betul.
Setakat ini, tiada faktor berkaitan model didapati berkaitan secara langsung dengan keupayaan pembetulan interaktif, dan kami tidak percaya bahawa ChatGPT mempunyai keupayaan untuk belajar dalam masa nyata Di satu pihak, ChatGPT mungkin masih melakukan kesilapan selepas memulakan semula perbualan, sebaliknya, kesilapan yang sama ialah pembelajaran pengoptimuman model besar asas sentiasa meringkaskan corak kerap daripada data frekuensi tinggi, dan sukar untuk dikemas kini. model asas dalam satu perbualan pula.
Saya percaya ia lebih kepada teknik pemprosesan maklumat sejarah model bahasa asas yang mungkin termasuk:
Model bahasa yang boleh mempelajari corak penaakulan logik asas telah jauh melebihi jangkaan Menjejaki asal keupayaan penaakulannya merupakan persoalan yang sangat menarik. Kajian perbandingan yang berkaitan telah mendapati bahawa apabila model itu cukup besar dan kod program dan data teks dicampur untuk latihan, rantaian logik lengkap kod program akan dipindahkan dan digeneralisasikan kepada model bahasa besar, supaya model besar mempunyai tertentu. keupayaan penaakulan.
Pemerolehan kebolehan penaakulan seperti ini agak ajaib, tetapi ia juga boleh difahami mungkin komen kod adalah jambatan untuk pemindahan dan generalisasi keupayaan penaakulan daripada kod logik kepada bahasa model besar. Keupayaan berbilang bahasa sepatutnya serupa. Kebanyakan data latihan ChatGPT adalah dalam bahasa Inggeris, dan data Cina menyumbang sangat sedikit Walau bagaimanapun, kami mendapati bahawa walaupun keupayaan bahasa Cina ChatGPT tidak sebaik bahasa Inggeris, ia masih sangat berkuasa. Beberapa data selari Cina-Inggeris dalam data latihan mungkin menjadi jambatan untuk memindahkan kebolehan bahasa Inggeris kepada kebolehan Cina.
6. Adakah ChatGPT menggunakan strategi penyahkodan yang berbeza untuk tugas hiliran yang berbeza?
ChatGPT mempunyai banyak persembahan yang menakjubkan, salah satunya ialah ia boleh menjana pelbagai respons berbeza kepada soalan yang sama, yang kelihatan sangat pintar.Contohnya, jika kita tidak berpuas hati dengan jawapan ChatGPT, kita boleh klik butang “Regenerate” dan ia akan segera menjana balasan lain Jika kita masih tidak berpuas hati, kita boleh teruskan untuk membiarkannya tumbuh semula. Ini bukan misteri dalam bidang NLP Untuk model bahasa, ia adalah keupayaan asas, iaitu penyahkodan pensampelan.
Sebuah serpihan teks mungkin diikuti dengan perkataan yang berbeza Model bahasa akan mengira kebarangkalian setiap perkataan muncul Jika strategi penyahkodan memilih perkataan dengan kebarangkalian tertinggi untuk keluaran, maka keputusan setiap kali Ditentukan, adalah mustahil untuk menjana respons kepelbagaian. Jika pensampelan dijalankan mengikut taburan kebarangkalian output perbendaharaan kata, contohnya, kebarangkalian "strategi" ialah 0.5 dan kebarangkalian "algoritma" ialah 0.3, maka kebarangkalian pensampelan penyahkodan keluaran "strategi" ialah 50%, dan kebarangkalian "algoritma" keluaran ialah 30%, sekali gus memastikan kepelbagaian keluaran. Oleh kerana proses persampelan dijalankan mengikut taburan kebarangkalian, walaupun keputusan output adalah pelbagai, keputusan dengan kebarangkalian yang lebih tinggi dipilih setiap kali, jadi pelbagai keputusan kelihatan agak munasabah. Apabila membandingkan jenis tugasan yang berbeza, kami akan mendapati bahawa kepelbagaian balasan ChatGPT sangat berbeza untuk tugas hiliran yang berbeza.
Apabila ia berkaitan dengan tugasan jenis "Bagaimana", "Mengapa" seperti "Bagaimana" dan "Mengapa", balasan yang dijana semula adalah berbeza dengan ketara daripada balasan sebelumnya dari segi ungkapan dan kandungan khusus. Untuk tugasan "Apa" seperti terjemahan mesin dan masalah perkataan matematik, perbezaan antara respons yang berbeza adalah sangat halus, dan kadangkala hampir tiada perubahan. Jika semuanya berdasarkan penyahkodan pensampelan bagi taburan kebarangkalian, mengapakah perbezaan antara tindak balas yang berbeza sangat kecil?
Teka situasi ideal mungkin tugas jenis "Apa" Taburan kebarangkalian yang dipelajari oleh model besar adalah sangat tajam (Sharp), contohnya, kebarangkalian "strategi" yang dipelajari ialah. 0.8, " Kebarangkalian "Algoritma" ialah 0.1, jadi kebanyakan masa keputusan yang sama diambil sampel, iaitu, 80% daripada kemungkinan pensampelan "Strategi" dalam contoh sebelumnya; taburan kebarangkalian yang dipelajari oleh model besar berdasarkan pada tugas jenis "Bagaimana" dan "Mengapa" Agak lancar (Lancar), contohnya, kebarangkalian "strategi" ialah 0.4, dan kebarangkalian "algoritma" ialah 0.3, jadi keputusan yang berbeza boleh diambil sampel pada masa yang berbeza.
Jika ChatGPT dapat mempelajari taburan kebarangkalian yang sangat ideal berkaitan dengan tugasan, strategi penyahkodan berasaskan pensampelan boleh digunakan untuk semua tugas. Biasanya, untuk tugas seperti terjemahan mesin, pengiraan matematik, soalan dan jawapan fakta, dan lain-lain, di mana jawapannya agak pasti atau 100% pasti, penyahkodan tamak biasanya digunakan, iaitu perkataan dengan kebarangkalian tertinggi adalah output setiap kali. . Jika anda ingin mengeluarkan output yang pelbagai dengan semantik yang sama, kaedah penyahkodan berasaskan carian lajur kebanyakannya digunakan, tetapi strategi penyahkodan berasaskan pensampelan jarang digunakan.
Daripada interaksi dengan ChatGPT, nampaknya menggunakan kaedah penyahkodan berasaskan pensampelan untuk semua tugasan, yang benar-benar estetik yang ganas.
Kekurangan kebolehpercayaan jawapan pada masa ini merupakan cabaran terbesar yang dihadapi oleh ChatGPT. Terutama untuk soalan dan jawapan yang berkaitan dengan fakta dan pengetahuan, ChatGPT kadangkala mengarut dan menghasilkan maklumat palsu. Walaupun anda memintanya untuk memberikan sumber dan sumber atau rujukan, ChatGPT selalunya akan menjana URL yang tidak wujud atau rujukan yang tidak pernah diterbitkan.
Walau bagaimanapun, ChatGPT biasanya memberikan pengguna perasaan yang lebih baik, iaitu ia seolah-olah mengetahui banyak fakta dan pengetahuan. Sebenarnya, ChatGPT ialah model bahasa yang besar Intipati model bahasa yang besar ialah rangkaian neural dalam Intipati rangkaian saraf dalam ialah model statistik, iaitu untuk mempelajari corak yang berkaitan daripada data frekuensi tinggi. Banyak pengetahuan atau fakta yang kerap muncul dalam data latihan Corak antara konteks secara relatif tetap Taburan kebarangkalian perkataan adalah agak tajam dan model besar mudah diingat dan mengeluarkan perkataan yang betul semasa proses penyahkodan Fakta atau pengetahuan.
Walau bagaimanapun, terdapat banyak peristiwa dan pengetahuan yang jarang muncul walaupun dalam data latihan yang sangat besar, dan model besar tidak dapat mempelajari corak yang berkaitan Corak antara konteks adalah agak longgar, dan perkataan yang diramalkan taburan kebarangkalian adalah agak lancar dan entropi adalah agak besar Model besar cenderung untuk menghasilkan output rawak yang tidak pasti semasa proses penaakulan.
Ini adalah masalah yang wujud dengan semua model generatif, termasuk ChatGPT. Jika seni bina siri GPT masih diteruskan dan model asas tidak diubah, secara teorinya sukar untuk menyelesaikan masalah kebolehpercayaan fakta balasan ChatGPT. Gabungan dengan enjin carian pada masa ini merupakan penyelesaian yang sangat pragmatik Enjin carian bertanggungjawab untuk mencari sumber maklumat fakta yang boleh dipercayai, dan ChatGPT bertanggungjawab untuk meringkaskan dan meringkaskan.
Jika anda mahu ChatGPT menyelesaikan masalah kebolehpercayaan jawapan fakta, anda mungkin perlu meningkatkan lagi keupayaan penolakan model, iaitu, menapis soalan-soalan yang model ditentukan untuk tidak dapat menjawab, dan anda juga memerlukan modul pengesahan fakta untuk mengesahkan ketepatan balasan ChatGPT. Diharapkan generasi GPT akan datang dapat membuat terobosan dalam isu ini.
Keupayaan pembetulan interaktif ChatGPT menjadikannya seolah-olah mempunyai keupayaan pembelajaran autonomi masa nyata.
Seperti yang dibincangkan di atas, ChatGPT boleh menyemak semula balasan yang berkaitan dengan serta-merta berdasarkan niat pengubahsuaian atau maklumat pembetulan yang diberikan oleh pengguna, menunjukkan keupayaan pembelajaran masa nyata. Sebenarnya, ini tidak berlaku. Keupayaan pembelajaran mencerminkan bahawa pengetahuan yang dipelajari adalah universal dan boleh digunakan pada masa lain dan lain-lain. ChatGPT hanya boleh membuat pembetulan berdasarkan maklum balas pengguna dalam perbualan semasa Apabila kami memulakan semula perbualan dan menguji masalah yang sama, ChatGPT masih akan melakukan kesilapan yang sama atau serupa.
Satu soalan ialah mengapa ChatGPT tidak menyimpan maklumat yang diubah suai dan betul ke dalam model? Terdapat dua aspek kepada masalah di sini. Pertama sekali, maklumat yang diberikan balik oleh pengguna tidak semestinya betul Kadangkala ChatGPT sengaja dibimbing untuk membuat jawapan yang tidak munasabah Ini hanya kerana ChatGPT telah memperdalam pergantungannya kepada pengguna dalam pembelajaran pengukuhan, jadi ChatGPT berada dalam keadaan yang sama. perbualan. Kami akan sangat bergantung pada maklum balas pengguna semasa proses. Kedua, walaupun maklumat yang diberikan balik oleh pengguna adalah betul, kerana kekerapan kejadian mungkin tidak tinggi, model besar asas tidak boleh mengemas kini parameter berdasarkan data frekuensi rendah Jika tidak, model besar akan mengatasi beberapa data ekor panjang dan kehilangan serba bolehnya.
Oleh itu, amat sukar untuk ChatGPT belajar dalam masa nyata Penyelesaian yang mudah dan intuitif ialah menggunakan data baharu untuk memperhalusi ChatGPT setiap masa. Atau gunakan mekanisme pencetus untuk mencetuskan kemas kini parameter model apabila berbilang pengguna menyerahkan maklum balas yang sama atau serupa, dengan itu meningkatkan keupayaan pembelajaran dinamik model tersebut.
Pengarang artikel ini, Zhang Jiajun, ialah penyelidik di Institut Automasi, Akademi Sains China pautan:
. https://zhuanlan .zhihu.com/p/606478660
Atas ialah kandungan terperinci Dugaan mengenai lapan isu teknikal ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!