Rumah >Peranti teknologi >AI >Rasa ingin tahu AI bukan sahaja membunuh kucing! Algoritma pembelajaran pengukuhan baharu MIT, kali ini ejennya 'sukar dan mudah untuk mengambil semua'
Semua orang pernah menghadapi masalah lama.
Hari ini malam Jumaat dan anda cuba memilih restoran untuk dimakan tetapi anda tidak mempunyai tempahan. Perlukah anda beratur di restoran kegemaran anda yang penuh sesak dengan orang ramai, atau mencuba restoran baharu dengan harapan untuk menemui beberapa kejutan yang lebih enak?
Yang terakhir ini memang berpotensi untuk mengejutkan, tetapi gelagat yang didorong rasa ingin tahu seperti ini datang dengan risiko: makanan di restoran baharu yang anda cuba mungkin lebih sedap.
Sikap ingin tahu ialah daya penggerak AI untuk meneroka dunia, dan terdapat banyak contoh - navigasi autonomi, robot membuat keputusan, hasil pengesanan yang dioptimumkan, dsb.
Dalam sesetengah kes, mesin menggunakan "pembelajaran pengukuhan" untuk mencapai matlamat Dalam proses ini, ejen AI berulang kali belajar daripada tingkah laku baik yang diberi ganjaran dan tingkah laku buruk yang dihukum.
Sama seperti dilema yang dihadapi manusia ketika memilih restoran, ejen ini juga cuba mengimbangi masa untuk menemui tindakan yang lebih baik (penerokaan) dan mengambil masa lalu yang membawa kepada yang tinggi ganjaran masa tindakan (penggunaan).
Sikap ingin tahu yang terlalu kuat akan mengalih perhatian ejen daripada membuat keputusan yang menguntungkan, manakala rasa ingin tahu yang terlalu lemah bermakna ejen tidak akan dapat menemui keputusan yang menguntungkan.
Dalam usaha menjadikan ejen AI mempunyai rasa ingin tahu yang "tepat", penyelidik dari Makmal Sains Komputer dan AI (CSAIL) MIT mencipta algoritma untuk mengatasi masalah AI yang terlalu "ingin tahu" dan masalah terganggu. dengan tugasan yang ada.
Algoritma yang mereka bangunkan secara automatik meningkatkan rasa ingin tahu apabila diperlukan dan mengurangkannya jika ejen mempunyai pengawasan yang mencukupi daripada persekitaran untuk mengetahui perkara yang perlu dilakukan.
Pautan kertas: https://williamd4112.github.io/pubs/neurips22_eipo.pdf
Selepas menguji lebih daripada 60 permainan video, algoritma ini Mampu berjaya dalam tugas penerokaan dengan kesukaran yang berbeza-beza, sedangkan algoritma sebelumnya hanya boleh menyelesaikan kesukaran mudah atau sukar secara individu. Ini bermakna ejen AI boleh menggunakan kurang data untuk mempelajari peraturan keputusan dan memaksimumkan insentif.
"Jika anda mempunyai pemahaman yang baik tentang pertukaran penerokaan-eksploitasi, anda boleh mempelajari peraturan keputusan yang betul dengan lebih cepat, dan apa-apa yang kurang memerlukan banyak data, yang boleh bermakna akibat daripada Ia adalah suboptimum penyelesaian perubatan, keuntungan laman web menurun, dan robot tidak belajar untuk melakukan perkara yang betul,” kata Pulkit Agrawal, salah seorang ketua kajian, seorang profesor di MIT dan pengarah Makmal AI Improbable.
Perasaan ingin tahu bukan sahaja membunuh kucing!
Dengan pembelajaran pengukuhan, proses ini secara emosi "dipangkas", melucutkan masalah ke tahap paling asas, tetapi pelaksanaan teknikalnya agak rumit.
Pada asasnya, ejen hanya perlu ingin tahu apabila tidak ada penyeliaan yang mencukupi untuk mencuba perkara yang berbeza, dan jika ada penyeliaan, ia mesti menyesuaikan rasa ingin tahunya dan mengurangkan rasa ingin tahunya.
Dalam tugasan permainan ujian, sebahagian besarnya ialah ejen kecil berlari mengelilingi persekitaran mencari ganjaran dan melakukan senarai panjang tindakan untuk mencapai beberapa matlamat Ini nampaknya merupakan ujian logik penyelidik. platform algoritma.
Dalam eksperimen dengan permainan seperti "Mario Kart" dan "Montezuma's Revenge", penyelidik membahagikan permainan di atas kepada dua kategori berbeza:
Satu ialah persekitaran dengan penyeliaan yang jarang, di mana ejen menerima kurang bimbingan, yang merupakan permainan penerokaan "sukar" yang lain adalah persekitaran dengan penyeliaan yang lebih intensif, yang merupakan permainan penerokaan "mudah".
Andaikan dalam Mario Kart, keluarkan sahaja semua ganjaran, anda tidak tahu bila musuh membunuh anda. Anda tidak mendapat sebarang ganjaran apabila anda mengumpul syiling atau melompat ke atas paip. Ejen hanya diberitahu pada akhir bagaimana ia berfungsi. Ini adalah persekitaran yang jarang diawasi, yang merupakan tugas yang sukar. Algoritma yang merangsang rasa ingin tahu berfungsi dengan baik dalam tugasan sebegini.
Dan jika ejen berada dalam persekitaran yang diawasi padat, iaitu, terdapat ganjaran untuk melompat paip, mengumpul syiling dan membunuh musuh, maka algoritma berprestasi terbaik ialah algoritma tanpa rasa ingin tahu sama sekali, kerana ia sering mendapat Untuk ganjaran, ikut sahaja proses dan anda akan mendapat banyak tanpa penerokaan tambahan.
Jika anda menggunakan algoritma yang menggalakkan rasa ingin tahu, kelajuan pembelajaran akan menjadi sangat perlahan.
Oleh kerana ejen yang ingin tahu mungkin cuba berlari pantas dengan cara yang berbeza, bersiar-siar dan melawati setiap sudut permainan. Perkara ini menyeronokkan, tetapi ia tidak membantu ejen berjaya dalam permainan dan menerima ganjaran.
Seperti yang dinyatakan di atas, dalam pembelajaran pengukuhan, algoritma yang merangsang rasa ingin tahu dan menghalang rasa ingin tahu secara amnya digunakan untuk sepadan dengan tugasan intensif (sukar) yang jarang diselia (sukar) dan diselia secara intensif (mudah), dan tidak boleh dicampur.
Kali ini, algoritma baharu pasukan MIT sentiasa menunjukkan prestasi yang baik, tidak kira dalam apa jua persekitaran.
Kerja masa depan mungkin melibatkan kembali kepada pencarian yang telah menggembirakan dan merisaukan ahli psikologi selama bertahun-tahun: ukuran rasa ingin tahu yang sesuai -- tiada siapa yang benar-benar tahu cara yang betul untuk mentakrifkan rasa ingin tahu secara matematik.
Zhang Weihong, pelajar PhD di MIT CSAIL, berkata:
Tala algoritma untuk masalah yang anda minati dengan menambah baik algoritma penerokaan. Kita memerlukan rasa ingin tahu untuk menyelesaikan masalah yang mencabar, tetapi pada sesetengah masalah rasa ingin tahu boleh merendahkan prestasi. Algoritma kami menghapuskan beban pengimbangan untuk melaraskan penerokaan dan eksploitasi.
Masalah yang dulunya mengambil masa seminggu untuk diselesaikan, algoritma baharu boleh mendapat hasil yang memuaskan dalam beberapa jam.
Beliau ialah pengarang bersama kertas kerja baharu mengenai kerja ini bersama Eric Chen, '22, seorang sarjana kejuruteraan CSAIL di MIT.
Deepak Pathak, seorang guru di Universiti Carnegie Mellon, berkata:
"Mekanisme ganjaran intrinsik seperti rasa ingin tahu adalah asas untuk membimbing ejen menemui tingkah laku yang berguna dan pelbagai, tetapi ini tidak Perlu dilakukan dengan mengorbankan melakukan dengan baik pada tugas yang diberikan? Ini adalah soalan penting dalam AI, dan kertas kerja ini menyediakan cara untuk mengimbangi pertukaran ini dan melihat bagaimana kaedah ini boleh diperluaskan daripada permainan ke dunia sebenar perkara yang sangat menarik untuk dilakukan dengan kecerdasan robot."
Alison Gopnik, Profesor Psikologi Terbilang dan Profesor Madya Falsafah di Universiti California, Berkeley, menunjukkan bahawa salah satu cabaran terbesar dalam AI dan sains kognitif semasa adalah bagaimana untuk melakukan ini. Imbangan "penerokaan dan penggunaan", yang pertama adalah mencari maklumat, yang kedua adalah mencari ganjaran.
"Makalah ini menggunakan teknologi baharu yang mengagumkan untuk mengautomasikan kerja ini, mereka bentuk ejen yang boleh mengimbangi rasa ingin tahu secara sistematik tentang dunia dan keinginan untuk ganjaran, menjadikan AI pintar Ini adalah langkah penting ke arah menjadi pintar seperti kanak-kanak sebenar," katanya.
Rujukan:
https://techxplore.com/news/2022-11-bad-ai-curious.html
https://www.csail .edu/news/ensure-ai-works-right-dose-curiosity
Atas ialah kandungan terperinci Rasa ingin tahu AI bukan sahaja membunuh kucing! Algoritma pembelajaran pengukuhan baharu MIT, kali ini ejennya 'sukar dan mudah untuk mengambil semua'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!