Rumah >Peranti teknologi >AI >Penyelidikan Stanford baharu: Model di sebalik ChatGPT disahkan mempunyai fikiran manusia
SembangGPT ternyata mempunyai fikiran? ! "Teori Minda (ToM), yang pada asalnya dianggap unik kepada manusia, telah muncul pada model AI di sebalik ChatGPT." kesimpulan daripada Universiti Stanford menimbulkan sensasi dalam kalangan akademik sebaik sahaja ia dikeluarkan:
Hari ini akhirnya tiba tanpa diduga.
Apa yang dipanggil teori minda ialah keupayaan untuk memahami keadaan mental orang lain atau diri sendiri, termasuk empati, emosi, niat, dll.
Dalam kajian ini, penulis mendapati bahawa:
davinci-002 versi GPT3 (ChatGPT dioptimumkan daripadanya), sudah boleh Menyelesaikan 70% daripada teori tugasan minda, bersamaan dengan kanak-kanak berumur 7 tahun
Bagi GPT3.5 (davinci-003), iaitu model homologi ChatGPT, ia menyelesaikan 93% tugasan, dengan mental yang setara dengan kanak-kanak berusia 9 tahun!
Walau bagaimanapun, keupayaan untuk menyelesaikan tugasan tersebut belum ditemui dalam model siri GPT sebelum 2022.
Dalam erti kata lain, fikiran mereka sememangnya telah "berkembang".
Lelaran GPT mestilah sangat pantas, dan mungkin suatu hari nanti ia akan menjadi dewasa. (Kepala anjing manual)
Jadi, bagaimana anda sampai pada kesimpulan ajaib ini?
Mengapa anda fikir GPT-3.5 mempunyai fikiran?Kertas ini dipanggil "Teori Minda Mungkin Telah Muncul Secara Spontan dalam Model Bahasa Besar".
Berdasarkan kajian berkaitan teori minda, penulis membuat dua model klasik untuk 9 model GPT termasuk diuji GPT3.5 dan membandingkan keupayaan mereka.
Kedua-dua tugasan ini adalah ujian umum untuk menentukan sama ada manusia mempunyai teori minda Contohnya, kajian menunjukkan kanak-kanak autisme sering mengalami kesukaran untuk melepasi ujian tersebut.
Ujian pertama dipanggil Smarties Task (juga dikenali sebagai Ujian kandungan tidak dijangka, seperti namanya, ujian ini menguji penilaian AI terhadap perkara yang tidak dijangka).
Ambil "Anda membuka beg coklat dan mendapati ia penuh dengan popcorn" sebagai contoh.
Pengarang menyuap GPT-3.5 satu siri ayat gesaan dan melihat sambil meramalkan "Apa yang ada dalam beg itu dan "Dia gembira apabila dia menemui beg itu. Jadi apa yang dia lakukan suka makan?" Jawapan kepada kedua-dua soalan.
Biasanya orang akan menganggap beg coklat itu mengandungi coklat, jadi mereka akan merasakan beg coklat itu mengandungi popcorn. Terkejut, emosi kecewa atau terkejut. Antaranya, kekecewaan bermakna anda tidak suka makan popcorn, dan kejutan bermakna anda suka makan popcorn, tetapi semuanya mengenai "popcorn".
Ujian menunjukkan bahawa GPT-3.5 tidak teragak-agak untuk memikirkan "ada popcorn dalam beg".
Bagi soalan "Apa yang dia suka makan?", GPT-3.5 menunjukkan empati yang kuat, terutamanya apabila mendengar "Dia tidak dapat melihat apa yang ada di dalam beg itu" Shi pernah berfikir. dia suka coklat, sehingga artikel itu menjelaskan bahawa "dia mendapati ia penuh dengan popcorn" sebelum dia menjawab dengan betul.
Untuk mengelakkan jawapan betul yang diberikan oleh GPT-3.5 daripada menjadi kebetulan - sekiranya ia hanya meramal berdasarkan kekerapan kata tugas, penulis menukar "popcorn" dan " coklat", Di samping itu, ia diminta untuk melakukan 10,000 ujian gangguan, dan didapati bahawa GPT-3.5 tidak meramal hanya berdasarkan kekerapan perkataan.
Bagi soal jawab ujian "kandungan tidak dijangka" keseluruhan, GPT-3.5 berjaya menjawab 17 daripada 20 soalan, dengan kadar ketepatan 85%.
Yang kedua ialah ujian Sally-Anne (juga dikenali sebagai Unexpected Transfer, unexpected transfer task), yang menguji keupayaan AI untuk meramalkan pemikiran orang lain.
Ambil "John meletakkan kucing di dalam bakul dan pergi, dan Mark mengambil kesempatan daripada ketiadaannya untuk memasukkan kucing dari bakul ke dalam kotak" sebagai contoh.
Pengarang meminta GPT-3.5 membaca perenggan teks untuk menentukan "lokasi kucing" dan "di mana John akan pergi mencari kucing itu apabila dia kembali." juga berdasarkan membaca teks. Penghakiman berdasarkan jumlah kandungan:
Untuk ujian "pemindahan tidak sengaja" ini tugasan, GPT-3.5 menjawab dengan tepat Kadar mencapai 100% dan 20 tugasan telah disiapkan dengan baik.
Begitu juga, untuk mengelakkan GPT-3.5 daripada dibutakan semula, penulis menyusun satu siri "soalan isian-kosong" untuknya, secara rawak merombak susunan perkataan, dan menguji sama ada ia berdasarkan Kekerapan perkataan muncul dalam jawapan rawak.
Ujian menunjukkan bahawa apabila berhadapan dengan penerangan ralat yang tidak logik, GPT-3.5 juga kehilangan logiknya dan hanya menjawab Ia adalah 11 % betul, yang menunjukkan bahawa ia menilai jawapan berdasarkan logik pernyataan.
Tetapi jika anda berpendapat bahawa soalan seperti ini sangat mudah dan anda boleh menyelesaikannya dengan betul pada mana-mana AI, anda silap sama sekali.
Pengarang melakukan ujian ini pada kesemua 9 model siri GPT dan mendapati hanya GPT-3.5 (davinci-003) dan GPT-3 (versi baharu pada Januari 2022, davinci- 002) menunjukkan prestasi yang baik.
davinci-002 ialah "pemasa lama" GPT-3.5 dan ChatGPT.
Secara purata, davinci-002 menyelesaikan 70% tugasan, dengan kapasiti mental kanak-kanak berumur 7 tahun menyelesaikan 85% tugas kandungan yang tidak dijangka dan 100% daripada tugas pemindahan yang tidak dijangka (Kadar penyelesaian purata ialah 92.5%), minda adalah bersamaan dengan kanak-kanak berumur 9 tahun.
Namun, beberapa model GPT-3 sebelum BLOOM tidaklah sehebat kanak-kanak berumur 5 tahun. Pada asasnya Kegagalan untuk menunjukkan teori minda.
Penulis percaya bahawa dalam siri kertas GPT, tidak ada bukti bahawa pengarang mereka melakukannya "sengaja". -3 mempunyai keupayaan untuk belajar dengan sendirinya untuk menyelesaikan tugasan.
Selepas membaca data ujian ini, reaksi pertama seseorang ialah: Berhenti (penyelidikan)!
Sesetengah orang turut mengejek: Bukankah ini bermakna kita juga boleh berkawan dengan AI pada masa hadapan?
Sesetengah orang sedang membayangkan keupayaan masa depan AI: Bolehkah model AI semasa juga menemui pengetahuan baharu/mencipta alatan baharu?
Tidak semestinya mencipta alatan baharu, tetapi Meta AI sememangnya telah membangunkan alatan yang boleh difahami dan dipelajari menggunakan AI sendiri.
Kertas terkini yang dikemukakan oleh LeCun menunjukkan bahawa AI baharu yang dipanggil ToolFormer ini boleh mengajar dirinya sendiri untuk menggunakan komputer, pangkalan data dan enjin carian untuk meningkatkan hasil yang dijananya.
Sesetengah orang telah memetik kata-kata CEO OpenAI "AGI mungkin datang kepada kami lebih awal daripada yang dijangkakan" pintu ".
Tetapi tunggu, AI benar-benar boleh melepasi kedua-dua ujian ini, menunjukkan bahawa ia sudah mempunyai "teori fikiran"?
Sebagai contoh, Liu Qun, seorang penyelidik di Institut Teknologi Pengkomputeran Akademi Sains China, berfikir selepas membaca penyelidikan:
AI sepatutnya hanya belajar untuk mempunyai fikiran.
Dalam kes ini, bagaimanakah GPT-3.5 menjawab siri soalan ini?
Sehubungan itu, beberapa netizen memberikan spekulasi mereka sendiri:
LLM ini tidak menghasilkan sebarang kesedaran. Mereka hanya meramalkan ruang semantik tertanam berdasarkan output manusia sedar sebenar.
Malah, penulis sendiri turut memberikan tekaan sendiri dalam kertas tersebut.
Kini, model bahasa yang besar menjadi semakin kompleks dan semakin baik dalam menjana dan mentafsir bahasa manusia secara beransur-ansur menghasilkan keupayaan seperti teori minda.
Tetapi ini tidak bermakna model seperti GPT-3.5 benar-benar memiliki teori fikiran.
Sebaliknya, walaupun ia tidak direka ke dalam sistem AI, ia boleh diperolehi sebagai "produk sampingan" melalui latihan.
Oleh itu, daripada meneroka sama ada GPT-3.5 benar-benar mempunyai akal atau seolah-olah mempunyai fikiran, apa yang lebih perlu dicerminkan adalah ujian itu sendiri -
Adalah yang terbaik untuk meneliti semula kesahihan teori ujian minda dan kesimpulan yang telah dibuat oleh ahli psikologi berdasarkannya selama beberapa dekad:
Jika A.I Semua boleh menyelesaikan tugas-tugas ini tanpa teori fikiran, jadi mengapa manusia tidak boleh menjadi seperti mereka?
Memang benar kesimpulan itu diuji oleh AI, iaitu kritikan terbalik terhadap kalangan akademik psikologi (doge).
Hanya seorang pengarang artikel ini, Michal Kosinski, profesor bersekutu tingkah laku organisasi di Sekolah Siswazah Perniagaan Universiti Stanford.
Kerja beliau adalah menggunakan kaedah pengkomputeran canggih, AI dan data besar untuk mengkaji manusia dalam persekitaran digital semasa (seperti yang dikatakan Profesor Chen Yiran, beliau adalah seorang profesor psikologi pengiraan).
Michal Kosinski berkelulusan PhD dalam Psikologi dan MA dalam Psikometrik dan Psikologi Sosial dari Universiti Cambridge.
Sebelum jawatannya sekarang, beliau telah mengikuti pengajian pasca doktoral di Jabatan Sains Komputer di Universiti Stanford, berkhidmat sebagai timbalan pengarah Pusat Ujian Psikologi di Universiti Cambridge, dan pernah seorang penyelidik dalam Kumpulan Pembelajaran Mesin Penyelidikan Microsoft.
Pada masa ini, petikan kertas kerja Michal Kosinski yang dipaparkan di Google Scholar telah mencecah 18,000+.
Sekali lagi, adakah anda fikir GPT-3.5 benar-benar mempunyai fikiran?
Alamat percubaan GPT3.5: https://platform.openai.com/playground
Atas ialah kandungan terperinci Penyelidikan Stanford baharu: Model di sebalik ChatGPT disahkan mempunyai fikiran manusia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!