Rumah  >  Artikel  >  Peranti teknologi  >  GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

WBOY
WBOYasal
2024-06-10 12:32:271084semak imbas

Bolehkah GPT-4 lulus ujian Turing?

Apabila model yang cukup berkuasa dilahirkan, orang sering menggunakan ujian Turing untuk mengukur kecerdasan LLM ini.

Baru-baru ini, penyelidik dari Jabatan Sains Kognitif di UCSD menemui:

Dalam Ujian Turing, orang ramai tidak dapat membezakan GPT-4 daripada manusia!

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Alamat kertas: https://arxiv.org/pdf/2405.08007

Dalam ujian Turing, GPT-4 dinilai sebagai manusia 54% daripada masa itu.

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Hasil percubaan menunjukkan bahawa ini adalah kali pertama sistem telah diluluskan secara empirik dalam ujian Turing dua orang "interaktif".

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Penyelidik Cameron R. Jones telah mengambil 500 sukarelawan, yang dibahagikan kepada 5 peranan: 4 penilai iaitu GPT-4, GPT-3.5, ELIZA dan manusia, dan satu lagi peranan Just "act" sebagai manusia. , bersembunyi di sisi lain skrin, menunggu penilai menemuinya.

Berikut ialah petikan daripada permainan ini. Bolehkah anda tahu kotak dialog yang manakah adalah manusia?

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Rajah 1: Sebahagian daripada perbualan antara penyiasat manusia (hijau) dan saksi (kelabu)

Malah, di antara empat perbualan ini, satu perbualan dengan saksi manusia, dan selebihnya ialah Perbualan dengan kecerdasan buatan.

"Ujian Turing" terkawal dilancarkan buat kali pertama

Dalam 74 tahun yang lalu, orang ramai telah membuat banyak percubaan pada ujian Turing, tetapi sedikit percubaan terkawal telah dijalankan.

Anugerah Loebner yang terkenal adalah pertandingan tahunan Namun, sejak kali pertama diadakan pada tahun 1990 hingga 2020, tiada sistem yang lulus ujian.

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Kajian berskala besar baru-baru ini mendapati bahawa manusia boleh mengenali satu siri LLM dengan ketepatan 60% dalam perbualan dalam talian selama 2 minit.

Sehingga kini, tiada demonstrasi eksperimen "terkawal" di mana mana-mana mesin telah lulus ujian.

Untuk menguji sama ada orang boleh melihat melalui penipuan sistem AI semasa, penyelidik menggunakan GPT-4 untuk menjalankan ujian Turing dua orang yang dikawal secara rawak.

Keperluan ujian adalah sangat mudah, iaitu peserta manusia memulakan perbualan selama 5 minit dengan manusia dan kecerdasan buatan, dan menentukan sama ada lawan bicara adalah manusia.

Seperti yang dinyatakan pada mulanya, penyelidik menilai sejumlah 3 model - GPT-4, GPT-3.5 dan ELIZA.

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Untuk dua LLM pertama, para penyelidik menyesuaikan pembayang berprestasi terbaik daripada kajian penerokaan GPT-4 dan GPT-3.5 untuk mengarahkan model besar cara bertindak balas terhadap mesej.

Satu cabaran utama dalam mentafsir ujian Turing, kata penyelidik, ialah prestasi cemerlang sistem mungkin berpunca daripada dua sebab:

- Pertama, ia adalah tiruan manusia yang baik

, kedua, hakim terlalu mudah tertipu

Situasi terakhir ini sering dipanggil kesan ELIZA, iaitu, peserta akan memanusiakan sistem yang mudah sekalipun.

Sistem ELIZA sangat dikenali oleh semua orang.

Ia adalah chatbot berasaskan peraturan yang ringkas dari tahun 1960-an, tetapi pengguna mendapati diri mereka mengaitkan ciri manusia kepadanya juga.

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Oleh itu, dalam eksperimen, penyelidik menggunakan ELIZA sebagai garis dasar, di satu pihak untuk mengukur kesan ELIZA secara empirik, dan di sisi lain untuk menjalankan semakan operasi dalam eksperimen.

Jadi, apakah keputusan khusus ujian Turing ini?

Kadar lulus GPT-4 54%

Pertama lihat penunjuk penting: kadar lulus.

Para penyelidik mentakrifkan kadar hantaran sebagai perkadaran objek penilaian dalam permainan yang dinilai sebagai manusia oleh penilai.

Kadar lulus GPT-4 ialah 54%, melebihi GPT-3.5 (50%) dan garis dasar ELIZA (22%), tetapi lebih rendah daripada subjek manusia (67%).

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Kadar lulus penilai (kiri) dan kepercayaan penilai (kanan). Setiap titik dalam gambar di sebelah kanan mewakili permainan

Hasil ini sebenarnya tidak mengejutkan dan pada asasnya konsisten dengan andaian pada peringkat awal penyelidikan.

Sebelum eksperimen, para penyelidik membuat beberapa andaian: Pertama, diandaikan bahawa keupayaan manusia untuk mengesan GPT-4 tidak akan melebihi peluang (50%).

Untuk mengesahkan ini, penyelidik menyesuaikan model regresi logistik untuk meramalkan kadar lulus hanya pintasan.

Tiada perbezaan ketara antara pintasan dan 0 (z=0.14, p=0.482), yang menunjukkan bahawa kadar lulus GPT-4 boleh lebih kurang sama dengan 50%. Model Bayesian meramalkan selang keyakinan 95% untuk pintasan GPT-4 sebanyak -0.24-0.55 (bersamaan dengan kadar lulus 44%-63%).

Ini bermakna apabila berhadapan dengan GPT-4, kebarangkalian kejayaan diskriminasi oleh manusia adalah lebih kurang sama seperti melambung syiling!

Hasilnya juga mengesahkan hipotesis kedua dan ketiga penyelidik: kadar lulus manusia adalah jauh lebih tinggi daripada kadar lulus GPT-4 (z=2.42, p=0.017), manakala kadar lulus GPT-4 lebih tinggi. kadar lulus ELIZA (z=4.11, p

Namun, apa yang tidak konsisten dengan andaian eksperimen penyelidik ialah prestasi GPT-4 dan GPT-3.5 adalah hampir sama (z=0.497, p=0.619).

Dalam bidang "berpura-pura menjadi manusia", ia adalah seri.

Juga menghairankan, peserta yang melaporkan pemahaman yang lebih baik tentang cara LLM berfungsi tidak lebih berjaya dalam mengenal pasti LLM (z = -0.023, p = 0.869).

Dalam analisis penerokaan, penyelidik mendapati bahawa umur mempunyai kesan negatif terhadap ketepatan penyiasat (z = -2.24, p = 0.025), tetapi pembolehubah demografi lain termasuk jantina, tahap pendidikan dan interaksi dengan kekerapan interaksi chatbot ) tidak mempunyai kesan yang ketara.

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Kenapa begini hasilnya? Mari kita analisa sebab di sebaliknya.

Untuk mendapatkan pandangan tentang perkara yang sebenarnya mempengaruhi keputusan penilai, kami mengkategorikan strategi yang digunakan oleh penilai dan sebab yang mereka berikan untuk keputusan mereka.

36% daripada penilai akan berbual dengan sasaran penilaian dan bertanya tentang beberapa butiran peribadi atau aktiviti harian.

Strategi yang paling biasa dalam kategori kedua dan ketiga ialah sosial dan emosi (25%) – contohnya, bertanya tentang pendapat dan pengalaman penilai dan memerhati sama ada mereka mempunyai rasa jenaka.

Yang lain menumpukan pada pengetahuan dan penaakulan (13%), termasuk soalan tentang matematik, logik dan pengetahuan am.

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Strategi bertanya (kiri) dan ketepatan purata (kanan)

Untuk membandingkan keberkesanan setiap strategi, penyelidik mengira purata ketepatan menggunakan strategi ini.

Apabila penilai bertanya kepada orang lain tentang pengalaman manusia (75%), logik dan matematik (78%), atau secara langsung "menuduh" orang lain itu mempunyai kecerdasan buatan (80%), mereka biasanya lebih dekat dengan " jawapan yang betul".

Dalam permainan, sebab kecerdasan buatan "menunjukkan kelemahannya" biasanya kerana penilai merasakan bahawa mereka seolah-olah memaksa diri untuk memainkan peranan, sama ada terlalu bersahaja atau kurang personaliti.

Dan ELIZA mudah "terdedah", terutamanya disebabkan oleh reaksi luar tabii dan kekurangan kesedaran kontekstual.

Dapat dilihat bahawa kedua-dua dari segi strategi yang digunakan dan sebab untuk membuat keputusan oleh sukarelawan yang mengambil bahagian dalam permainan, mereka memberi lebih perhatian kepada gaya bahasa dan faktor sosio-emosi berbanding kategori intelektual yang lebih tradisional ( pengetahuan dan penaakulan).

Ini nampaknya mencerminkan andaian asas sukarelawan - kecerdasan sosial ialah ciri manusia yang paling tidak dapat ditandingi untuk AI.

Ujian Turing, lulus

Bagaimana untuk mengetahui apabila sistem telah lulus ujian Turing?

Turing meramalkan dalam kertas kerjanya pada tahun 1950 bahawa menjelang akhir abad ini, sistem AI akan dapat memainkan permainan tiruan dengan begitu baik sehingga pemeriksa tidak mempunyai lebih daripada 70 peluang untuk membuat pengenalan yang betul selepas 5- pertukaran minit %.

Kesimpulan ini telah membawa kepada sama ada kadar kelulusan AI boleh mencapai 30%, yang menjadi sasaran perbincangan ramai penyelidik.

Walau bagaimanapun, penanda aras ini kelihatan sewenang-wenangnya, dan tidak jelas sama ada Turing memaksudkannya sebagai takrif kejayaan.

Malah, garis dasar 50% lebih munasabah kerana ia lebih membuktikan bahawa pengulas manusia tidak lebih baik daripada peluang untuk mengenal pasti AI.

Takrifan ini amat relevan dengan matlamat untuk mengetahui sama ada pengguna boleh mengenal pasti manusia lain dengan pasti semasa interaksi dalam talian.

Dalam analisis pra-awam penyelidik, isu ini telah ditangani dengan menggunakan garis dasar ELIZA sebagai semakan manipulasi.

Hanya apabila analisis menunjukkan bahawa kadar lulus ELIZA adalah lebih rendah daripada kebarangkalian dan kadar lulus GPT-4 tidak lebih rendah daripada kebarangkalian, model itu boleh dinilai telah lulus ujian.

Mengikut takrifan ini, GPT-4 jelas lulus versi ujian Turing ini.

Selain itu, markah keyakinan peserta dan asas membuat keputusan menunjukkan bahawa mereka tidak meneka secara rawak: GPT-4 mempunyai purata tahap keyakinan manusia sebanyak 73% (lihat Rajah 2). . Walau bagaimanapun, hakikat bahawa AI hampir selalu boleh "menipu" manusia agak membimbangkan.

GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Ada yang kata mereka ragu-ragu dengan ujian sebegini. Kerana GPT-4 akan mengatasi kebanyakan manusia, mudah untuk membezakan siapa manusia dan siapa kecerdasan buatan.

Para penyelidik mengatakan bahawa ini sememangnya masalah yang kami hadapi. Sebagai contoh, rizab pengetahuan GPT-4 adalah "terlalu kaya" atau ia menguasai terlalu banyak bahasa. Kami secara eksplisit menggesa model untuk mengelakkan situasi ini, yang berkesan pada tahap tertentu. GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4

Atas ialah kandungan terperinci GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn