Rumah >Peranti teknologi >AI >Richard Sutton: Pengalaman ialah data muktamad AI, empat peringkat yang membawa kepada pembangunan AI sebenar
Pengenalan: Pembangunan kecerdasan buatan yang kuat telah menjadi topik yang membimbangkan sejak beberapa tahun kebelakangan ini. Membiarkan AI belajar daripada persepsi dan tingkah laku manusia dan bukannya data berlabel sahaja telah menjadi tumpuan ramai penyelidik. Antaranya, cara menggunakan pengalaman hidup harian yang diperoleh manusia untuk memberi inspirasi dan membina kecerdasan buatan yang boleh menyesuaikan diri dengan persekitaran yang berbeza dan berinteraksi dengan dunia luar telah menjadi cara baharu untuk meneroka dalam beberapa bidang.
Richard Sutton, yang dikenali sebagai bapa pembelajaran pengukuhan, baru-baru ini mencadangkan idea menggunakan pengalaman untuk memberi inspirasi kepada pembangunan AI. Beliau membahagikan proses AI daripada menggunakan data kepada menggunakan pengalaman kepada empat peringkat pembangunan, dan mencadangkan hala tuju pembangunan membina AI sebenar (AI Sebenar) pada masa hadapan. Pada 31 Mei 2022, Richard Sutton menyampaikan ucaptama bertajuk "Peningkatan Peranan Pengalaman Sensorimotor dalam AI" pada Persidangan Zhiyuan Beijing 2022, memfokuskan pada penggunaan pengalaman untuk memberi inspirasi kepada pembangunan AI. Kaedah tersebut diringkaskan dan diprospek.
Profil pembesar suara: Richard Sutton, Pengkomputeran Moden Salah seorang pengasas tetulang berasaskan jenis belajar, beliau adalah seorang saintis penyelidikan yang cemerlang di DeepMind, seorang profesor di Jabatan Sains Pengkomputeran di Universiti Alberta, dan ahli Persatuan Diraja, Persatuan Diraja Kanada, Persatuan untuk Kemajuan Kecerdasan Buatan, Alberta Institut Perisikan Mesin (AMII) dan penyelidik CIFAR.
Sutton percaya bahawa interaksi antara cerdik pandai. ejen dan dunia luar Berinteraksi, menghantar tindakan kepadanya, dan menerima persepsi (maklum balas daripadanya). Interaksi yang melibatkan pengalaman ini adalah cara biasa persepsi dalam pembelajaran pengukuhan. Ia juga merupakan pendekatan biasa yang digunakan apabila membiarkan ejen cuba meramalkan dunia luar. Walau bagaimanapun, pendekatan ini jarang berlaku dalam pembelajaran diselia, yang pada masa ini merupakan jenis pembelajaran mesin yang paling biasa. Pembelajaran mesin tidak melibatkan pengalaman biasa (Ordinary Experience), dan model tidak belajar daripada data latihan khas yang berbeza daripada pengalaman biasa. Malah, semasa runtime, sistem pembelajaran yang diselia tidak belajar sama sekali.
Jadi, pengalaman adalah data interaktif (membawa) dan cara untuk berkomunikasi dengan dunia luar. Pengalaman tidak bermakna melainkan ia berkaitan dengan pengalaman lain. Sudah tentu, terdapat satu pengecualian: ganjaran yang dinyatakan melalui isyarat khas. Ganjaran mewakili matlamat yang baik, dan ejen pastinya berharap untuk memaksimumkan ganjaran.
Dalam ucapannya, Sutton menimbulkan persoalan teras: Apa yang akhirnya boleh menjelaskan kecerdasan? Adakah istilah objektif atau istilah pengalaman? Yang pertama termasuk perkara-perkara seperti keadaan, matlamat, orang, tempat, hubungan, ruang, tindakan, dan jarak di dunia luar yang tidak ada dalam ejen, manakala yang kedua termasuk perkara di dalam agen seperti persepsi, tindakan, ganjaran, masa. langkah, dsb. Sutton percaya bahawa walaupun penyelidik biasanya berfikir tentang konsep objektif semasa berkomunikasi dan menulis kertas kerja, kini lebih perhatian harus diberikan kepada pengalaman yang dihasilkan oleh interaksi antara ejen dan dunia luar.
Untuk memperkenalkan lagi kepentingan pengalaman kepada ejen pintar, Richard Sutton mencadangkan bahawa apabila pengalaman dinilai secara beransur-ansur, jumlah Ia melalui empat peringkat. Ia adalah: Agensi, Ganjaran, Keadaan Pengalaman dan Pengetahuan Ramalan. Selepas empat peringkat pembangunan ini, AI secara beransur-ansur memperoleh pengalaman dan menjadi lebih praktikal, boleh dipelajari dan mudah dikembangkan.
Jika anda ingin mencapai keadaan matlamat yang sesuai, penyelesaiannya ialah urutan tindakan untuk memastikan AI boleh mencapainya dari keadaan sasaran keadaan permulaan. Tiada persepsi dan tindakan dalam hal ini, kerana seluruh dunia luar diketahui, ditentukan, dan tertutup, jadi tidak perlu AI untuk melihat dan bertindak. Penyelidik tahu apa yang akan berlaku, jadi mereka hanya perlu membina rancangan untuk menyelesaikan masalah dan membiarkan AI melaksanakannya.
Dalam 30 tahun pembangunan yang lalu, penyelidikan kecerdasan buatan telah menumpukan pada membina ejen pintar. Anjakan ini dapat dilihat dalam fakta bahawa buku teks standard mengenai kecerdasan buatan termasuk konsep agen sebagai asas. Sebagai contoh, versi 1995 "Kecerdasan Buatan: Pendekatan Moden" menyebut bahawa tema bersatu keseluruhan buku itu adalah untuk memperkenalkan konsep ejen pintar. Dari perspektif ini, masalah AI adalah untuk menerangkan dan membina agen pintar, mendapatkan kognisi daripada persekitaran, dan mengambil tindakan. Apabila penyelidikan berkembang, pendekatan standard dan moden adalah untuk membina agen yang boleh berinteraksi dengan dunia luar. Sutton percaya bahawa AI boleh dilihat dari perspektif ini.
2. Ganjaran
Ganjaran dianggap sebagai hipotesis yang agak mencukupi pada masa kini - kecerdasan dan kebolehan berkaitannya boleh difahami sebagai hasil servis untuk memaksimumkan ganjaran . Jadi dikatakan cukup ganjaran untuk ejen.
Walau bagaimanapun, Sutton percaya bahawa idea ini perlu dicabar. Ganjaran tidak cukup untuk mencapai kecerdasan. Ganjaran hanyalah angka, skalar, yang tidak cukup untuk menjelaskan matlamat kecerdasan. Matlamat yang datang dari luar minda dan dinyatakan dalam satu nombor kelihatan terlalu kecil, terlalu reduktif, malah terlalu merendahkan. Manusia suka membayangkan matlamat yang lebih besar, seperti menjaga keluarga mereka, menyelamatkan dunia, keamanan dunia, dan menjadikan dunia tempat yang lebih baik. Matlamat manusia lebih penting daripada memaksimumkan kebahagiaan dan keselesaan.
Sama seperti penyelidik mendapati bahawa ganjaran bukanlah cara yang baik untuk membina matlamat, penyelidik juga telah menemui kelebihan membina matlamat melalui ganjaran. Ganjaran membina matlamat yang terlalu kecil, tetapi di dalamnya orang boleh membuat kemajuan—matlamat boleh ditakrifkan dengan baik, jelas dan mudah dipelajari. Ini agak mencabar untuk membina matlamat melalui pengalaman.
Sutton percaya bahawa adalah mencabar untuk membayangkan membina matlamat sepenuhnya melalui pengalaman. Melihat kembali sejarah, kita dapat melihat bahawa AI pada asalnya tidak berminat dengan ganjaran, walaupun sekarang. Oleh itu, sama ada sistem penyelesaian masalah awal atau versi terkini buku teks AI, matlamat tetap ditakrifkan sebagai keadaan dunia (World State) yang perlu dicapai, bukannya sebagai empirikal (definisi). Matlamat sedemikian mungkin masih merupakan set khusus "blok binaan" dan bukannya hasil yang dilihat untuk dicapai.
Sudah tentu, terdapat bab dalam buku teks terkini yang menyebut pembelajaran pengukuhan dan menyebut bahawa AI ini menggunakan mekanisme ganjaran. Selain itu, ganjaran sudah menjadi amalan biasa dalam proses membina matlamat dan boleh dicapai menggunakan proses keputusan Markov. Bagi penyelidik (seperti Yann LeCun) yang mengkritik ganjaran kerana tidak membina matlamat dengan secukupnya, ganjaran sudah menjadi "ceri" di bahagian atas "kek" kecerdasan, dan ia sangat penting.
Dalam dua peringkat seterusnya, Sutton akan memperkenalkan cara memahami dunia luar dari perspektif empirikal, tetapi Sebelum melakukan jadi, dia akan perkenalkan dulu apa yang dimaksudkan dengan pengalaman.
<.>
Seperti yang ditunjukkan dalam urutan di bawah (data bukan sebenar), apabila langkah masa bermula, sistem akan mendapat isyarat penderiaan, dan juga akan menghantar isyarat dan tindakan. Jadi isyarat persepsi boleh menyebabkan beberapa tindakan, dan tindakan ini menyebabkan isyarat persepsi seterusnya. Pada bila-bila masa, sistem perlu memberi perhatian kepada tindakan terkini dan isyarat terkini, supaya ia boleh memutuskan perkara yang akan berlaku seterusnya dan cara melakukannya.
Seperti yang ditunjukkan dalam rajah, ini ialah tatasusunan isyarat input dan output bagi program pelaksanaan ejen. Lajur pertama ialah langkah masa, setiap langkah boleh dianggap sebagai sekelip mata 0.1 saat atau 0.01 saat. Lajur isyarat tindakan diwakili oleh sistem dua peringkat, diwakili oleh kelabu dan putih. Kemudian terdapat lajur isyarat deria, di mana empat lajur pertama adalah nilai binari (juga menggunakan kelabu dan putih), empat lajur terakhir menggunakan empat nilai dari 0 hingga 3, diwakili oleh empat warna merah, kuning , biru dan hijau, dan lajur terakhir ialah Pembolehubah berterusan, mewakili ganjaran. Dalam percubaan, penyelidik mengeluarkan nombor dan meninggalkan hanya warna untuk memudahkan mencari corak. Sutton percaya bahawa pengalaman merujuk kepada pengetahuan dan pemahaman tentang pola yang terdapat dalam data pengalaman deria-motor.
Dalam kes ini, Sutton menyenaraikan empat corak tipikal:
1. Yang terakhir digit tindakan adalah sama dengan isyarat yang dirasakan serta-merta mengikutinya. Jika tindakan pada langkah masa tertentu berwarna putih, isyarat pertama yang dirasakan selepas itu juga berwarna putih, dan perkara yang sama berlaku untuk kelabu.
2. Apabila piksel merah muncul, langkah seterusnya ialah piksel hijau. Selepas mengembangkan julat data, boleh didapati bahawa selepas piksel merah dan hijau muncul satu demi satu, piksel biru akan muncul setiap langkah masa yang lain.
3. Tiga lajur terakhir data selalunya mempunyai rentetan panjang dengan warna yang sama, yang kekal tidak berubah. Sebaik sahaja warna bermula, ia berterusan untuk beberapa tempoh masa, akhirnya membentuk jalur. Seperti rentetan panjang merah, hijau, biru, dll.
4 Jika data deria khusus yang diramalkan oleh AI dipaparkan, banyak kali ia tidak boleh diperhatikan dengan segera, jadi Tambah nilai pulangan (Return) kepada data ini, yang mewakili ramalan ganjaran yang akan datang. Jalur hijau dalam kotak menunjukkan bahawa ganjaran seterusnya akan menjadi lebih hijau daripada merah. Ini mewakili ramalan semasa ganjaran.
Kawasan berlorek khas mewakili fungsi menunggu. Terdapat jalur hijau dan merah di kawasan berlorek fungsi tunggu. Di sini, penyelidik memberikan berat yang lebih tinggi kepada pulangan awal dengan ganjaran berwarna. Apabila anda mengalihkan nilai pulangan dari semasa ke semasa, anda boleh melihat perubahan warna dan nilai yang sepadan antara hasil yang diramalkan dan ganjaran sebenar ini adalah ramalan - ia boleh dipelajari daripada pengalaman.
Sutton percaya bahawa nilai pulangan ini pada dasarnya tidak dipelajari daripada peristiwa yang telah berlaku, tetapi dipelajari daripada isyarat perbezaan masa. Isyarat yang paling penting ialah fungsi nilai. Dalam kes ini, nilai pulangan sebenarnya adalah fungsi nilai yang mewakili jumlah ganjaran masa hadapan. Jika anda mahukan bentuk umum fungsi kompleks yang boleh merujuk kepada nilai masa hadapan, anda boleh menggunakan kaedah yang dipanggil Fungsi Nilai Am (GVF). Fungsi nilai umum merangkumi pelbagai isyarat, bukan hanya ganjaran; ia boleh dalam bentuk sampul masa, bukan hanya eksponen. Fungsi nilai am juga boleh merangkumi strategi mana-mana baris gilir dan boleh meramalkan bilangan yang sangat besar dan pelbagai perkara. Sudah tentu, Sutton percaya bahawa kesukaran membuat ramalan melalui pengiraan bergantung kepada bentuk objek yang diramalkan. Apabila menggunakan fungsi nilai am untuk ramalan, bentuk ungkapan objek yang diramalkan perlu direka bentuk dalam bentuk yang mudah dipelajari dan memerlukan kecekapan pengiraan yang tinggi.
Apabila menyebut perkataan "state", banyak kajian akan menyebut Apa yang kita datang ke adalah Negara Dunia, iaitu perkataan yang tergolong dalam konsep objektif. State merujuk kepada gambaran simbolik (refleksi) dunia objektif yang dapat menandingi situasi dunia itu sendiri. Sebagai contoh, untuk maklumat kedudukan blok bangunan (C adalah pada A), dsb. Sejak kebelakangan ini, beberapa penyelidik (seperti Judea Pearl) telah mencadangkan model grafik kebarangkalian, yang mewakili taburan kebarangkalian keadaan dunia. Beberapa peristiwa, seperti "Hujan di luar, adakah rumput basah terdapat hubungan kebarangkalian antara peristiwa ini?"
Keadaan lain ialah keadaan kepercayaan (Belief State) , dalam konsep ini, keadaan adalah taburan kebarangkalian, mewakili keadaan dunia diskret, dan kaedah yang sepadan dipanggil POMDPs (Proses keputusan Markov yang boleh diperhatikan sebahagiannya) - terdapat pembolehubah keadaan tersembunyi, sebahagian daripadanya boleh diperhatikan , boleh dimodelkan menggunakan proses keputusan Markov.
Kaedah di atas semuanya objektif dan jauh daripada pengalaman .
Perbezaannya ialah keadaan pengalaman. Sutton percaya bahawa keadaan empirikal merujuk kepada keadaan seluruh dunia yang ditakrifkan berdasarkan pengalaman. Keadaan pengalaman ialah ringkasan pengalaman lalu dan boleh meramal serta mengawal pengalaman yang akan diperoleh pada masa hadapan.
Pendekatan membina pengalaman lalu dan meramal masa depan ini telah dicerminkan dalam penyelidikan. Sebagai contoh, dalam permainan Atari, salah satu tugas pembelajaran pengukuhan, penyelidik akan menggunakan empat bingkai terakhir video untuk membina keadaan pengalaman dan kemudian meramalkan tingkah laku seterusnya. Beberapa kaedah dalam rangkaian LSTM juga boleh dianggap sebagai membuat ramalan dari keadaan empirikal tertentu.
Melihat kembali status pengalaman, ia boleh dikemas kini secara rekursif. Keadaan pengalaman ialah fungsi ringkasan perkara yang berlaku pada masa lalu Memandangkan AI perlu mengakses keadaan pengalaman setiap saat untuk meramalkan peristiwa seterusnya, kemas kini keadaan pengalaman adalah rekursif: saat semasa hanya mengakses keadaan pengalaman. saat sebelumnya , dan keadaan pengalaman pada saat terakhir ialah ringkasan semua peristiwa yang telah berlaku pada masa lalu. Pada saat seterusnya, hanya keadaan pengalaman pada masa ini diakses, dan keadaan pengalaman ini juga merupakan ringkasan semua peristiwa yang berlaku pada masa lalu.
Rajah berikut menunjukkan proses pembinaan keadaan pengalaman ejen. Antaranya, anak panah merah menunjukkan isyarat kerja asas ejen, termasuk: perasaan, tindakan, ganjaran, dll. Anak panah biru menandakan arah keadaan pengalaman (perwakilan), output daripada persepsi, yang bertanggungjawab untuk mengemas kini keadaan pengalamannya pada setiap langkah masa. Status yang dikemas kini digunakan untuk menyusun strategi tindakan atau membuat kemas kini lain.
Penyelidikan AI sebelum ini cenderung untuk menganggap pengetahuan sebagai item objektif, walaupun beberapa penyelidikan baru-baru ini telah melihat masalah itu dari perspektif empirikal. Sistem AI awal tidak mempunyai pengalaman dan oleh itu tidak dapat membuat ramalan. AI yang lebih moden menganggap pengetahuan sebagai kewujudan objektif. Model yang lebih maju ialah model grafik kebarangkalian, tetapi dalam banyak kes ia mengkaji kebarangkalian antara dua perkara yang berlaku pada masa yang sama, dan ramalan harus berorientasikan kepada satu siri peristiwa urutan.
Ramalan berdasarkan peristiwa urutan ialah pengetahuan dengan sifat semantik yang jelas. Jika sesuatu diramalkan akan berlaku, AI boleh membandingkan ramalan dengan hasil sebenar. Model ramalan seperti ini boleh dianggap sebagai jenis pengetahuan dunia baharu, iaitu pengetahuan ramalan. Antara pengetahuan ramalan, Sutton percaya bahawa yang paling canggih ialah Fungsi Nilai Am dan Model Opsyen.
Sutton membahagikan pengetahuan dunia kepada dua kategori, satu ialah pengetahuan tentang negara dunia; pengetahuan. Contoh pengetahuan tentang peralihan keadaan dunia ialah model ramalan dunia. Model ramalan dunia di sini bukanlah bentuk utama proses keputusan Markov atau persamaan perbezaan. Ia boleh menjadi keadaan abstrak yang boleh diekstrak daripada keadaan empirikal. Oleh kerana ramalan adalah berdasarkan keseluruhan tingkah laku, dalam model pemilihan, ejen juga boleh memilih untuk menghentikan strategi tertentu dan menamatkan syarat tertentu. Kadangkala, menggunakan model pemindahan melodi, adalah mungkin untuk meramalkan keadaan selepas melakukan tindakan. Mengambil kehidupan seharian sebagai contoh, dengan mengandaikan seseorang ingin pergi ke bandar, dia akan membuat ramalan tentang jarak dan masa ke pusat bandar Untuk tingkah laku yang melebihi ambang tertentu (seperti berjalan ke bandar selama 10 minit ), ramalan lanjut akan dibuat Dedahkan keadaan, seperti keletihan, dsb.
Dengan model ini yang boleh memanjangkan tingkah laku, skala pengetahuan yang diwakili juga boleh menjadi sangat besar. Sebagai contoh, anda boleh meramalkan keadaan dunia berdasarkan satu tingkah laku, dan kemudian meramalkan tingkah laku seterusnya berdasarkan keadaan...dan seterusnya.
Merumuskan proses pembangunan pengalaman dalam penyelidikan AI, Sutton berkata bahawa pengalaman adalah asas pengetahuan dunia Manusia memahami dan mempengaruhi dunia melalui persepsi dan tindakan mendapatkan maklumat dan mengambil tindakan Satu-satunya cara untuk bertindak, dan ia tidak dapat dipisahkan daripada manusia. Malangnya, kerana pengalaman terlalu subjektif dan peribadi, manusia masih tidak suka berfikir dan menyatakan dalam istilah pengalaman. Pengalaman terlalu asing, kontra-intuitif, sekejap dan kompleks untuk manusia. Pengalaman juga subjektif dan peribadi, dan hampir mustahil untuk berkomunikasi dengan orang lain atau mengesahkannya. Sutton percaya bahawa pengalaman adalah sangat penting untuk AI atas sebab-sebab berikut. Pertama, pengalaman datang daripada proses operasi harian AI, dan mendapatkan pengalaman ini adalah bebas kos dan automatik. Pada masa yang sama, bidang AI mempunyai sejumlah besar data yang digunakan untuk pengiraan, jadi pengalaman menyediakan laluan untuk memahami dunia Jika mana-mana fakta di dunia adalah empirikal, maka AI boleh mempelajari pemahamannya tentang dunia daripada pengalaman dan membina pengalaman untuk mengesahkan. Ringkasnya, Sutton percaya bahawa dalam tempoh 70 tahun pembangunan AI, AI secara beransur-ansur meningkatkan pergantungannya pada pengalaman . Nilai – memperoleh pengalaman, menetapkan matlamat berdasarkan pengalaman, dan memperoleh status dan pengetahuan berdasarkan pengalaman. Pada setiap peringkat, penyelidikan empirikal yang lebih asing kepada manusia menjadi lebih penting, dan ia mempunyai kelebihan sebagai asas, boleh dipelajari dan berskala.
Sutton percaya bahawa AI masih belum menyelesaikan peringkat tiga dan empat dari segi penggunaan pengalaman, tetapi trend ini akan pergi lebih jauh. Sutton percaya bahawa mengaitkan segala-galanya kepada pengalaman adalah jalan yang boleh dilaksanakan kepada AI sebenar. Walaupun sangat mencabar, ini adalah gambaran untuk dapat memahami aliran data dan mencapai kecerdasan. Akhir sekali, Sutton meringkaskan lagi empat peringkat penumpuan pada pengalaman sensorimotor dan membentuk slogan: "Data memacu kecerdasan buatan, dan pengalaman adalah data muktamad. Jika anda boleh menggunakan dengan baik pengalaman, kami boleh menggalakkan pembangunan kecerdasan buatan dengan lebih cepat dan berkesan.”03 AI
Atas ialah kandungan terperinci Richard Sutton: Pengalaman ialah data muktamad AI, empat peringkat yang membawa kepada pembangunan AI sebenar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!