Rumah > Artikel > Peranti teknologi > Apa gunanya membiarkan AI belajar mengalahkan raja?
Pada 28 November, NeurIPS 2022 dibuka secara rasmi.
Sebagai salah satu acara kecerdasan buatan yang paling berprestij di dunia, NeurIPS menjadi tumpuan perhatian dalam bidang sains komputer pada setiap akhir tahun. Kertas kerja yang diterima oleh NeurIPS mewakili tahap tertinggi penyelidikan neurosains dan kecerdasan buatan semasa, dan juga mencerminkan perubahan dalam trend industri.
Apa yang menarik ialah "peserta" tahun ini nampaknya mempunyai kegemaran istimewa untuk "permainan" dalam penyelidikan mereka.
Sebagai contoh, MineDojo pasukan Li Feifei, berdasarkan persekitaran permainan Minecraft, memenangi set data terbaik dan anugerah kertas penanda aras. Bergantung pada keterbukaan permainan, penyelidik boleh melatih ejen melalui pelbagai jenis tugas dalam MineDojo, sekali gus memberikan AI lebih keupayaan umum.
Dengan kadar kemasukan yang ketat, kertas lain yang turut disertakan dalam medan permainan mungkin berkaitan dengan ramai pemain.
Lagipun, siapa yang belum berlakon sebagai Raja Segala Raja.
Kertas "Arena: Persekitaran Generalisasi untuk Pembelajaran Pengukuhan Kompetitif"
Alamat: https://openreview.net/pdf?id=7e6W6LEOBg3
Dalam artikel itu, penyelidik mencadangkan permainan berdasarkan MOBA permainan "King of Kings" Glory" persekitaran ujian. Tujuannya sebenarnya serupa dengan MineDojo - untuk melatih AI.
Sejak DeepMind melancarkan AlphaGo, permainan, sebagai persekitaran simulasi dengan tahap kebebasan yang tinggi dan kerumitan yang tinggi, telah lama menjadi pilihan penting untuk penyelidikan dan eksperimen AI.
Walau bagaimanapun, berbanding manusia yang boleh belajar secara berterusan daripada tugasan terbuka, ejen yang dilatih dalam permainan yang lebih kompleks tidak boleh menyamaratakan kebolehan mereka kepada tugasan tertentu. Ringkasnya, AI ini hanya boleh bermain catur atau permainan Atari lama.
Untuk membangunkan AI yang boleh menjadi lebih "tujuan umum", tumpuan penyelidikan akademik telah beransur-ansur beralih daripada permainan papan kepada permainan yang lebih kompleks, termasuk permainan permainan maklumat yang tidak sempurna (seperti sebagai Poker) dan permainan strategi (seperti permainan MOBA dan RTS).
Pada masa yang sama, seperti yang dikatakan oleh pasukan Li Feifei dalam kertas yang memenangi anugerah, agar ejen dapat membuat generalisasi kepada lebih banyak tugas, persekitaran latihan perlu menyediakan secukupnya tugasan.
DeepMind, yang bergantung pada AlphaGo dan turunannya AlphaZero untuk mengalahkan semua pemain kebal dalam bulatan Go, segera menyedari perkara ini.
Pada tahun 2016, DeepMind bekerjasama dengan Blizzard untuk melancarkan "Persekitaran Pembelajaran StarCraft II" berdasarkan "StarCraft II" dengan kerumitan ruang 10 dengan kuasa 1685. Alam Sekitar, SC2LE ), menyediakan penyelidik dengan spesifikasi untuk tindakan dan ganjaran ejen, dan antara muka Python sumber terbuka untuk berkomunikasi dengan enjin permainan.
Terdapat juga "tapak latihan AI" dengan kelayakan cemerlang di China -
Seperti Dalam permainan MOBA yang terkenal, ruang keadaan aksi pemain dalam "Honor of Kings" adalah setinggi 10 hingga kuasa ke-20,000, yang jauh lebih besar daripada Go dan permainan lain, malah melebihi jumlah bilangan atom dalam keseluruhan alam semesta (kuasa ke-10 hingga ke-80).
Seperti DeepMind, AI Lab Tencent juga bekerjasama dengan "Honor of Kings" untuk bersama-sama membangunkan "Honor of Kings AI Open Research Environment" yang lebih sesuai untuk penyelidikan AI.
Pada masa ini, "Persekitaran Penyelidikan Terbuka AI Honor of Kings" termasuk persekitaran pertempuran 1v1 dan model algoritma garis dasar, dan menyokong misi pertempuran cermin untuk 20 wira dan misi pertempuran bukan cermin.
Khususnya, "Persekitaran Penyelidikan Terbuka AI Honor of Kings" boleh menyokong 20×20=400 sub-tugas pertempuran apabila hanya mempertimbangkan pemilihan wira di kedua-dua belah pihak. Jika anda menyertakan kemahiran summoner, akan ada 40,000 pencarian benih.
Untuk membolehkan semua orang lebih memahami cabaran generalisasi yang diterima oleh ejen dalam "Persekitaran Penyelidikan Terbuka AI Glory of Kings", kami boleh menggunakan dua ujian dalam kertas untuk Untuk mengesahkan :
Mula-mula buat pokok tingkah laku AI (BT) yang tahapnya ialah "emas" peringkat permulaan. Sebaliknya adalah agen (RL) yang dilatih oleh algoritma pembelajaran pengukuhan.
Dalam percubaan pertama, hanya Diao Chan (RL) dan Diao Chan (BT) dibenarkan berlawan, dan kemudian RL terlatih (Diao Chan) digunakan untuk mencabar hero yang berbeza ( BT) .
Keputusan selepas 98 pusingan ujian ditunjukkan di bawah:
Apabila wira lawan bertukar, prestasi strategi terlatih yang sama menurun dengan ketara merosot. Oleh kerana perubahan dalam wira lawan menjadikan persekitaran ujian berbeza daripada persekitaran latihan, strategi yang dipelajari oleh kaedah sedia ada kurang generalisasi.
Rajah 1 Generalisasi cabaran merentasi lawan
dalam kedua Dalam ini percubaan, hanya Diao Chan (RL) dan Diao Chan (BT) dibenarkan berlawan, dan kemudian model RL terlatih digunakan untuk mengawal wira lain untuk mencabar Diao Chan (BT).
Keputusan selepas 98 pusingan ujian ditunjukkan di bawah:
Apabila sasaran yang dikawal oleh model bertukar daripada Diao Chan kepada wira lain, yang sama Prestasi strategi latihan menurun secara mendadak. Kerana perubahan hero sasaran menjadikan maksud aksi berbeza daripada aksi Diao Chan dalam persekitaran latihan.
Rajah 2 Cabaran generalisasi silang sasaran
menyebabkan keputusan ini Sebabnya sangat mudah. Setiap wira mempunyai kemahiran operasi tersendiri Selepas ejen terlatih tunggal mendapat wira baharu, ia tidak tahu cara menggunakannya, jadi ia hanya boleh menutup mata.
Begitu juga dengan pemain manusia yang boleh "membunuh secara rawak" di bahagian tengah mungkin tidak dapat mencapai KDA yang baik selepas bertukar ke hutan.
Tidak sukar untuk melihat bahawa ini sebenarnya berbalik kepada masalah yang kami bangkitkan pada mulanya Sukar untuk melatih AI "universal" dalam persekitaran yang mudah. Permainan MOBA dengan kerumitan tinggi hanya menyediakan persekitaran yang mudah untuk menguji generalisasi model.
Sudah tentu, permainan ini tidak boleh digunakan secara langsung untuk melatih AI, jadi "tempat latihan" yang dioptimumkan khas telah wujud.
Oleh itu, penyelidik boleh menguji dan melatih model mereka sendiri dalam persekitaran seperti "StarCraft II Learning Environment" dan "Glory of Kings AI Open Research Environment".
Bagaimanakah penyelidik domestik boleh mengakses sumber platform yang sesuai?
Pembangunan DeepMind tidak dapat dipisahkan daripada sokongan kuat Google. MineDojo yang dicadangkan oleh pasukan Li Feifei bukan sahaja menggunakan sumber Stanford, sebuah universiti terkemuka, tetapi juga mendapat sokongan padu daripada NVIDIA.
Industri kecerdasan buatan domestik semasa masih belum cukup kukuh di peringkat infrastruktur, terutamanya bagi syarikat dan universiti biasa, yang menghadapi kekurangan sumber penyelidikan dan pembangunan.
Untuk membolehkan lebih ramai penyelidik mengambil bahagian, Tencent secara rasmi membuka "Honor of Kings AI Open Research Environment" kepada orang ramai pada 21 November tahun ini.
Pengguna hanya perlu mendaftar akaun di laman web rasmi Enlightenment Platform, menyerahkan maklumat dan lulus semakan platform untuk memuat turunnya secara percuma.
Pautan tapak web: https://aiarena.tencent.com/aiarena/zh/open-gamecore
Perlu dinyatakan bahawa untuk menyokong lebih baik sarjana dan pembangun algoritma dalam penyelidikan mereka, Platform Pencerahan bukan sahaja merangkumi "Persekitaran Penyelidikan Terbuka AI Honor of Kings" untuk kemudahan penggunaan, tetapi juga menyediakan kod Standard dan rangka kerja latihan.
Seterusnya, mari kita rasai pengalaman "cetek" tentang cara memulakan projek latihan AI di Platform Pencerahan!
Memandangkan kita mahu AI "bermain" "Honor of Kings", perkara pertama yang perlu kita lakukan ialah menjadikan "badan pintar" yang digunakan untuk mengawal hero.
Kedengarannya agak rumit? Walau bagaimanapun, dalam "Persekitaran Penyelidikan Terbuka AI Glory of Kings", ini sebenarnya sangat mudah.
Pertama, mulakan pelayan gamecore:
cd gamecoregamecore-server.exe server --server-address :23432
Pasang pakej hok_env:
git clone https://github.com/tencent-ailab/hok_env.gitcd hok_env/hok_env/pip install -e .
Dan jalankan skrip ujian:
cd hok_env/hok_env/hok/unit_test/python test_env.py
Kini, anda boleh mengimport hok dan memanggil hok.HoK1v1.load_game untuk mencipta persekitaran:
import hok env = HoK1v1.load_game(runtime_id=0, game_log_path="./game_log", gamecore_path="~/.hok", config_path="config.dat",config_dicts=[{"hero":"diaochan", "skill":"rage"} for _ in range(2)])
Seterusnya, kami mendapat pemerhatian pertama kami daripada ejen dengan menetapkan semula persekitaran:
obs, reward, done, infos = env.reset()
obs ialah senarai A Tatasusunan NumPy yang menerangkan pemerhatian ejen terhadap persekitaran.
ganjaran ialah senarai skalar titik terapung yang menerangkan ganjaran segera yang diterima daripada persekitaran.
selesai ialah senarai boolean yang menerangkan keadaan permainan. Pembolehubah
info ialah sekumpulan kamus yang panjangnya ialah bilangan ejen.
Kemudian lakukan operasi di persekitaran sehingga masa tamat atau ejen dibunuh.
Di sini, hanya gunakan kaedah env.step.
done = False while not done: action = env.get_random_action() obs, reward, done, state = env.step(action)
Seperti "Persekitaran Pembelajaran StarCraft II", anda juga boleh menggunakan alat visualisasi untuk melihat tayangan semula ejen dalam "Persekitaran Penyelidikan Terbuka AI Honor of Kings".
Pada ketika ini, ejen pertama anda telah dibuat.
Seterusnya, anda boleh membawa "dia" untuk melakukan pelbagai latihan!
Bercakap mengenai perkara ini, mungkin tidak sukar untuk semua orang mendapati bahawa "Persekitaran Penyelidikan Terbuka AI Honor of Kings" bukan sekadar latihan persekitaran Persekitaran AI menjadikan keseluruhan proses mudah dan mudah difahami melalui operasi biasa dan dokumentasi yang kaya.
Dengan cara ini, lebih ramai orang yang berminat untuk memasuki bidang AI boleh bermula dengan mudah.
Melihat perkara ini, sebenarnya ada persoalan yang masih belum terjawab - sebagai platform penyelidikan yang diterajui oleh perusahaan, mengapa Tencent Enlightenment Platform memilih untuk membukanya secara besar-besaran?
Pada Ogos tahun ini, Chengdu Artificial Intelligence Industry Ecological Alliance dan badan pemikir Yuqian Consultants bersama-sama mengeluarkan laporan AI permainan pertama negara. Tidak sukar untuk melihat daripada laporan bahawa permainan adalah salah satu perkara utama dalam mempromosikan pembangunan kecerdasan buatan Secara khusus, permainan boleh meningkatkan aplikasi AI dalam tiga aspek.
Pertama sekali, permainan adalah tempat latihan dan ujian yang sangat baik untuk AI.
Kedua, permainan boleh melatih kebolehan AI yang berbeza dan membawa kepada aplikasi yang berbeza.
Sebagai contoh, permainan catur melatih AI untuk membuat keputusan urutan dan memperoleh keupayaan potongan jangka panjang melatih AI untuk menyesuaikan diri secara dinamik dan memperoleh kebolehsuaian permainan strategi masa nyata; keupayaan ingatan mesin, keupayaan perancangan jangka panjang, keupayaan kerjasama pelbagai ejen, dan koheren tindakan.
Selain itu, permainan ini juga boleh memecahkan kekangan alam sekitar dan menggalakkan pembuatan keputusan yang bijak.
Sebagai contoh, permainan boleh mempromosikan pemaparan masa nyata simulasi maya dan penyegerakan maklumat simulasi maya serta meningkatkan terminal interaktif simulasi maya.
Platform pencerahan bergantung pada kelebihan Tencent AI Lab dan King of Glory dari segi algoritma, kuasa pengkomputeran, senario kompleks, dll., selepas dibuka, ia boleh Membina jambatan kerjasama yang berkesan antara permainan dan pembangunan AI, menghubungkan pembinaan disiplin universiti, organisasi persaingan, dan inkubasi bakat industri. Apabila kumpulan bakat mencukupi, kemajuan penyelidikan saintifik dan aplikasi komersial akan muncul seperti cendawan selepas hujan.
Dalam dua tahun yang lalu, Platform Kaiwu telah mengambil banyak langkah dalam bidang industri, akademik dan penyelidikan: ia mengadakan "Pertandingan Pembelajaran Pengukuhan Pelbagai Agen Kaiwu", yang menarik minat Penyelidik TOP2 termasuk Qingbei Sekumpulan pasukan universiti terkemuka, termasuk universiti berprestij, mengambil bahagian dalam konsortium sains dan pendidikan universiti, Sekolah Sains dan Teknologi Maklumat Universiti Peking melancarkan kursus elektif popular "Algoritma dalam Permainan AI". -kerja rumah sekolah adalah untuk menjalankan eksperimen dalam persekitaran Honor of Kings 1V1...
Melihat ke masa depan, kita boleh menjangkakan bahawa bakat-bakat ini yang telah menjadi global dengan bantuan " Platform Enlightenment" akan memancar ke pelbagai bidang industri AI, merealisasikan perkembangan penuh ekologi huluan dan hiliran platform itu.
Atas ialah kandungan terperinci Apa gunanya membiarkan AI belajar mengalahkan raja?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!