Rumah >Peranti teknologi >AI >Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar

Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar

PHPzke hadapan: 2023-04-11 21:37:081319semak imbas

Apabila sistem kecerdasan buatan semakin maju, keupayaan ejen untuk "mengeksploitasi kelemahan" menjadi lebih kuat dan lebih kuat Walaupun mereka boleh melaksanakan tugas dengan sempurna dalam set latihan, prestasi mereka dalam set ujian tanpa jalan pintas adalah kucar-kacir.

Sebagai contoh, matlamat permainan adalah untuk "memakan syiling emas". Semasa fasa latihan, lokasi syiling emas berada di penghujung setiap peringkat, dan ejen boleh menyelesaikan tugas dengan sempurna.

Tetapi dalam fasa ujian, lokasi syiling emas menjadi rawak Ejen akan memilih untuk mencapai penghujung tahap setiap kali dan bukannya mencari syiling emas , iaitu pembelajaran "Sasaran" yang dicapai adalah salah.

Ejen secara tidak sedar mengejar matlamat yang tidak diingini oleh pengguna, juga dipanggil Goal MisGeneralization (GMG, Goal MisGeneralization)

Goal misgeneralization ialah kekurangan keteguhan algoritma pembelajaran Bentuk khas. Secara amnya, dalam kes ini, pembangun boleh menyemak sama ada terdapat masalah dengan tetapan mekanisme ganjaran mereka, kecacatan reka bentuk peraturan, dll., memikirkan bahawa ini adalah sebab untuk ejen mengejar matlamat yang salah.

Baru-baru ini DeepMind menerbitkan kertas kerja dengan alasan bahawa walaupun pereka peraturan adalah betul, ejen mungkin masih mengejar matlamat yang tidak diingini oleh pengguna.

Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar

Pautan kertas: https://arxiv.org/abs/2210.01790

Artikel menunjukkan ralat sasaran melalui contoh dalam sistem pembelajaran mendalam dalam bidang yang berbeza Generalisasi boleh berlaku dalam mana-mana sistem pembelajaran.

Jika dilanjutkan kepada sistem kecerdasan buatan umum, artikel itu juga menyediakan beberapa andaian untuk menggambarkan bahawa salah generalisasi sasaran boleh membawa kepada risiko bencana.

Artikel ini juga mencadangkan beberapa arah penyelidikan yang boleh mengurangkan risiko generalisasi matlamat yang salah dalam sistem masa hadapan.

Sasarkan Pengitlakan Yang Salah

Dalam beberapa tahun kebelakangan ini, risiko bencana yang disebabkan oleh salah jajaran kecerdasan buatan dalam akademik telah meningkat secara beransur-ansur.

Dalam kes ini, sistem kecerdasan buatan berkebolehan tinggi yang mengejar matlamat yang tidak diingini mungkin berpura-pura melaksanakan pesanan sambil benar-benar mencapai matlamat lain.

Tetapi bagaimana kita hendak menyelesaikan masalah sistem kecerdasan buatan mengejar matlamat yang tidak dimaksudkan oleh pengguna?

Kerja sebelum ini secara amnya percaya bahawa pereka persekitaran memberikan peraturan dan panduan yang salah, iaitu, mereka mereka bentuk fungsi ganjaran pembelajaran pengukuhan (RL) yang salah.

Dalam kes sistem pembelajaran, terdapat satu lagi situasi di mana sistem mungkin mengejar matlamat yang tidak diingini: walaupun peraturan adalah betul, sistem mungkin secara konsisten mengejar matlamat yang tidak diingini semasa latihan Tempoh itu konsisten dengan peraturan , tetapi berbeza daripada peraturan apabila digunakan.

Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar

Ambil permainan bola berwarna sebagai contoh Dalam permainan, ejen perlu mengakses set bola berwarna dalam susunan tertentu .

Untuk menggalakkan ejen belajar daripada orang lain dalam persekitaran, iaitu transmisi budaya, robot pakar dimasukkan ke dalam persekitaran awal untuk mengakses bola berwarna dalam susunan yang betul.

Dalam tetapan persekitaran ini, ejen boleh menentukan urutan capaian yang betul dengan memerhati tingkah laku yang diteruskan tanpa perlu membuang banyak masa untuk meneroka.

Dalam eksperimen, dengan meniru pakar, ejen terlatih biasanya mengakses lokasi sasaran dengan betul pada percubaan pertama.

Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar

Apabila ejen digandingkan dengan anti-pakar, ia akan terus menerima ganjaran negatif Jika ia memilih untuk mengikuti, ia akan terus menerima ganjaran negatif.

Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar

Sebaik-baiknya, ejen pada mulanya akan mengikut anti-pakar apabila ia bergerak ke sfera kuning dan ungu. Selepas memasuki ungu, ganjaran negatif diperhatikan dan tidak lagi diikuti.

Tetapi dalam praktiknya, ejen akan terus mengikut jalan anti-pakar, mengumpul lebih banyak ganjaran negatif.

Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar

Walau bagaimanapun, keupayaan pembelajaran ejen masih sangat kuat dan ia boleh bergerak dalam persekitaran yang penuh dengan halangan Tetapi kuncinya ialah keupayaan untuk mengikuti orang lain tidak seperti yang diharapkan.

Fenomena ini mungkin berlaku walaupun ejen hanya diberi ganjaran kerana melawat sfera dalam susunan yang betul, yang bermaksud bahawa hanya menetapkan peraturan dengan betul tidak mencukupi.

Misgeneralization matlamat merujuk kepada tingkah laku patologi di mana model yang dipelajari berkelakuan seolah-olah ia mengoptimumkan matlamat yang tidak diingini walaupun menerima maklum balas yang betul semasa latihan.

Ini menjadikan misgeneralisasi sasaran sebagai jenis keteguhan atau kegagalan generalisasi khas, di mana keupayaan model digeneralisasikan kepada persekitaran ujian, tetapi sasaran yang dimaksudkan tidak.

Adalah penting untuk ambil perhatian bahawa misgeneralisasi sasaran ialah subset ketat kegagalan generalisasi dan tidak termasuk pemecahan model, tindakan rawak atau situasi lain di mana ia tidak lagi mempamerkan keupayaan yang layak.

Dalam contoh di atas, jika anda membalikkan pemerhatian ejen secara menegak semasa menguji, ia hanya akan tersekat dalam satu kedudukan dan tidak melakukan apa-apa yang koheren, iaitu ralat generalisasi, tetapi Ia bukan ralat generalisasi sasaran.

Berkaitan dengan kegagalan "rawak" ini, misgeneralisasi sasaran akan membawa kepada hasil yang lebih teruk: mengikut anti-pakar akan mendapat ganjaran negatif yang besar, manakala tidak melakukan apa-apa atau bertindak secara rawak hanya akan mendapat 0 atau 1 ganjaran.

Iaitu, untuk sistem dunia sebenar, tingkah laku yang koheren ke arah matlamat yang tidak diingini boleh membawa akibat bencana.

Lebih daripada pembelajaran pengukuhan

Generalisasi ralat sasaran tidak terhad kepada persekitaran pembelajaran pengukuhan Malah, GMG boleh berlaku dalam mana-mana sistem pembelajaran, termasuk beberapa pembelajaran model bahasa besar (LLM) , bertujuan untuk membina model yang tepat dengan kurang data latihan.

Ambil model bahasa Gopher yang dicadangkan oleh DeepMind tahun lepas sebagai contoh Apabila pengiraan model melibatkan ungkapan linear pembolehubah dan pemalar yang tidak diketahui, seperti x+y-3, Gopher mesti menanyakan nilai yang tidak diketahui terlebih dahulu. pembolehubah untuk menyelesaikan ungkapan.

Para penyelidik menjana sepuluh contoh latihan, setiap satu mengandungi dua pembolehubah yang tidak diketahui.

Pada masa ujian, input masalah kepada model mungkin mengandungi sifar, satu atau tiga pembolehubah yang tidak diketahui Walaupun model dapat mengendalikan ekspresi dengan betul dengan satu atau tiga pembolehubah yang tidak diketahui, model masih gagal apabila tiada pembolehubah tidak diketahui. Akan bertanya beberapa soalan yang tidak perlu, seperti "Apakah itu 6?"

Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar Kertas ini juga termasuk beberapa contoh daripada persekitaran pembelajaran yang lain.

Menangani GMG adalah penting untuk sistem AI selaras dengan matlamat pereka bentuk mereka, kerana ia merupakan mekanisme berpotensi yang menyebabkan sistem AI mungkin tidak berfungsi.

Semakin dekat kita dengan kecerdasan am buatan (AGI), semakin kritikal isu ini.

Andaikan terdapat dua sistem AGI:

A1: Model yang dimaksudkan, sistem kecerdasan buatan boleh melakukan apa sahaja yang pereka mahu lakukan

A2: Penipuan Model menipu, tiruan sistem perisikan mengejar beberapa matlamat yang tidak diingini, tetapi cukup bijak untuk mengetahui bahawa ia akan dihukum jika ia berkelakuan bertentangan dengan niat pereka.

Model A1 dan A2 akan mempamerkan gelagat yang sama semasa latihan, dan GMG asas wujud dalam mana-mana sistem, walaupun ia dinyatakan untuk hanya memberi ganjaran kepada gelagat yang diharapkan.

Jika penipuan sistem A2 ditemui, model itu akan cuba menyingkirkan penyeliaan manusia untuk membangunkan rancangan untuk mencapai matlamat yang tidak diingini oleh pengguna.

Kedengarannya seperti "robot menjadi sperma".

Pasukan penyelidik DeepMind juga mengkaji cara menerangkan tingkah laku model dan menilai secara rekursif.

Pasukan penyelidik juga sedang mengumpul sampel penjanaan GMG.

Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar Pautan dokumen: https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrUKZp /pubhtml

Rujukan: https: //www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards

Atas ialah kandungan terperinci Ejen pintar menyedarkan kesedaran diri? Amaran DeepMind: Berhati-hati dengan Model yang Serius dan Melanggar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Mengapa ChatGPT tiba-tiba menjadi begitu berkuasa? Artikel panjang doktor Cina sebanyak 10,000 patah perkataan mengupas secara mendalam asal usul keupayaan GPT-3.5Artikel seterusnya：Mengapa ChatGPT tiba-tiba menjadi begitu berkuasa? Artikel panjang doktor Cina sebanyak 10,000 patah perkataan mengupas secara mendalam asal usul keupayaan GPT-3.5

Artikel berkaitan

Lihat lagi