Rumah  >  Artikel  >  Peranti teknologi  >  Apa gunanya membiarkan AI belajar mengalahkan raja?

Apa gunanya membiarkan AI belajar mengalahkan raja?

王林
王林ke hadapan
2023-04-11 19:28:101170semak imbas

Pada 28 November, NeurIPS 2022 dibuka secara rasmi.

Sebagai salah satu acara kecerdasan buatan yang paling berprestij di dunia, NeurIPS menjadi tumpuan perhatian dalam bidang sains komputer pada setiap akhir tahun. Kertas kerja yang diterima oleh NeurIPS mewakili tahap tertinggi penyelidikan neurosains dan kecerdasan buatan semasa, dan juga mencerminkan perubahan dalam trend industri.

Apa yang menarik ialah "peserta" tahun ini nampaknya mempunyai kegemaran istimewa untuk "permainan" dalam penyelidikan mereka.

Sebagai contoh, MineDojo pasukan Li Feifei, berdasarkan persekitaran permainan Minecraft, memenangi set data terbaik dan anugerah kertas penanda aras. Bergantung pada keterbukaan permainan, penyelidik boleh melatih ejen melalui pelbagai jenis tugas dalam MineDojo, sekali gus memberikan AI lebih keupayaan umum.

Apa gunanya membiarkan AI belajar mengalahkan raja?

Dengan kadar kemasukan yang ketat, kertas lain yang turut disertakan dalam medan permainan mungkin berkaitan dengan ramai pemain.

Lagipun, siapa yang belum berlakon sebagai Raja Segala Raja.

Apa gunanya membiarkan AI belajar mengalahkan raja?

Kertas "Arena: Persekitaran Generalisasi untuk Pembelajaran Pengukuhan Kompetitif"

Alamat: https://openreview.net/pdf?id=7e6W6LEOBg3

Dalam artikel itu, penyelidik mencadangkan permainan berdasarkan MOBA permainan "King of Kings" Glory" persekitaran ujian. Tujuannya sebenarnya serupa dengan MineDojo - untuk melatih AI.

Mengapakah persekitaran permainan MOBA begitu popular?

Sejak DeepMind melancarkan AlphaGo, permainan, sebagai persekitaran simulasi dengan tahap kebebasan yang tinggi dan kerumitan yang tinggi, telah lama menjadi pilihan penting untuk penyelidikan dan eksperimen AI.

Walau bagaimanapun, berbanding manusia yang boleh belajar secara berterusan daripada tugasan terbuka, ejen yang dilatih dalam permainan yang lebih kompleks tidak boleh menyamaratakan kebolehan mereka kepada tugasan tertentu. Ringkasnya, AI ini hanya boleh bermain catur atau permainan Atari lama.

Untuk membangunkan AI yang boleh menjadi lebih "tujuan umum", tumpuan penyelidikan akademik telah beransur-ansur beralih daripada permainan papan kepada permainan yang lebih kompleks, termasuk permainan permainan maklumat yang tidak sempurna (seperti sebagai Poker) dan permainan strategi (seperti permainan MOBA dan RTS).

Pada masa yang sama, seperti yang dikatakan oleh pasukan Li Feifei dalam kertas yang memenangi anugerah, agar ejen dapat membuat generalisasi kepada lebih banyak tugas, persekitaran latihan perlu menyediakan secukupnya tugasan.

Apa gunanya membiarkan AI belajar mengalahkan raja?

DeepMind, yang bergantung pada AlphaGo dan turunannya AlphaZero untuk mengalahkan semua pemain kebal dalam bulatan Go, segera menyedari perkara ini.

Pada tahun 2016, DeepMind bekerjasama dengan Blizzard untuk melancarkan "Persekitaran Pembelajaran StarCraft II" berdasarkan "StarCraft II" dengan kerumitan ruang 10 dengan kuasa 1685. Alam Sekitar, SC2LE ), menyediakan penyelidik dengan spesifikasi untuk tindakan dan ganjaran ejen, dan antara muka Python sumber terbuka untuk berkomunikasi dengan enjin permainan.

Apa gunanya membiarkan AI belajar mengalahkan raja?

Terdapat juga "tapak latihan AI" dengan kelayakan cemerlang di China -

Seperti Dalam permainan MOBA yang terkenal, ruang keadaan aksi pemain dalam "Honor of Kings" adalah setinggi 10 hingga kuasa ke-20,000, yang jauh lebih besar daripada Go dan permainan lain, malah melebihi jumlah bilangan atom dalam keseluruhan alam semesta (kuasa ke-10 hingga ke-80).

Seperti DeepMind, AI Lab Tencent juga bekerjasama dengan "Honor of Kings" untuk bersama-sama membangunkan "Honor of Kings AI Open Research Environment" yang lebih sesuai untuk penyelidikan AI.

Apa gunanya membiarkan AI belajar mengalahkan raja?

Pada masa ini, "Persekitaran Penyelidikan Terbuka AI Honor of Kings" termasuk persekitaran pertempuran 1v1 dan model algoritma garis dasar, dan menyokong misi pertempuran cermin untuk 20 wira dan misi pertempuran bukan cermin.

Khususnya, "Persekitaran Penyelidikan Terbuka AI Honor of Kings" boleh menyokong 20×20=400 sub-tugas pertempuran apabila hanya mempertimbangkan pemilihan wira di kedua-dua belah pihak. Jika anda menyertakan kemahiran summoner, akan ada 40,000 pencarian benih.

Untuk membolehkan semua orang lebih memahami cabaran generalisasi yang diterima oleh ejen dalam "Persekitaran Penyelidikan Terbuka AI Glory of Kings", kami boleh menggunakan dua ujian dalam kertas untuk Untuk mengesahkan :

Apa gunanya membiarkan AI belajar mengalahkan raja?

Mula-mula buat pokok tingkah laku AI (BT) yang tahapnya ialah "emas" peringkat permulaan. Sebaliknya adalah agen (RL) yang dilatih oleh algoritma pembelajaran pengukuhan.

Dalam percubaan pertama, hanya Diao Chan (RL) dan Diao Chan (BT) dibenarkan berlawan, dan kemudian RL terlatih (Diao Chan) digunakan untuk mencabar hero yang berbeza ( BT) .

Keputusan selepas 98 pusingan ujian ditunjukkan di bawah:

Apabila wira lawan bertukar, prestasi strategi terlatih yang sama menurun dengan ketara merosot. Oleh kerana perubahan dalam wira lawan menjadikan persekitaran ujian berbeza daripada persekitaran latihan, strategi yang dipelajari oleh kaedah sedia ada kurang generalisasi.

Apa gunanya membiarkan AI belajar mengalahkan raja?

Rajah 1 Generalisasi cabaran merentasi lawan

dalam kedua Dalam ini percubaan, hanya Diao Chan (RL) dan Diao Chan (BT) dibenarkan berlawan, dan kemudian model RL terlatih digunakan untuk mengawal wira lain untuk mencabar Diao Chan (BT).

Keputusan selepas 98 pusingan ujian ditunjukkan di bawah:

Apabila sasaran yang dikawal oleh model bertukar daripada Diao Chan kepada wira lain, yang sama Prestasi strategi latihan menurun secara mendadak. Kerana perubahan hero sasaran menjadikan maksud aksi berbeza daripada aksi Diao Chan dalam persekitaran latihan.

Apa gunanya membiarkan AI belajar mengalahkan raja?

Rajah 2 Cabaran generalisasi silang sasaran

menyebabkan keputusan ini Sebabnya sangat mudah. ​​Setiap wira mempunyai kemahiran operasi tersendiri Selepas ejen terlatih tunggal mendapat wira baharu, ia tidak tahu cara menggunakannya, jadi ia hanya boleh menutup mata.

Begitu juga dengan pemain manusia yang boleh "membunuh secara rawak" di bahagian tengah mungkin tidak dapat mencapai KDA yang baik selepas bertukar ke hutan.

Tidak sukar untuk melihat bahawa ini sebenarnya berbalik kepada masalah yang kami bangkitkan pada mulanya Sukar untuk melatih AI "universal" dalam persekitaran yang mudah. Permainan MOBA dengan kerumitan tinggi hanya menyediakan persekitaran yang mudah untuk menguji generalisasi model.

Sudah tentu, permainan ini tidak boleh digunakan secara langsung untuk melatih AI, jadi "tempat latihan" yang dioptimumkan khas telah wujud.

Oleh itu, penyelidik boleh menguji dan melatih model mereka sendiri dalam persekitaran seperti "StarCraft II Learning Environment" dan "Glory of Kings AI Open Research Environment".

Bagaimanakah penyelidik domestik boleh mengakses sumber platform yang sesuai?

Pembangunan DeepMind tidak dapat dipisahkan daripada sokongan kuat Google. MineDojo yang dicadangkan oleh pasukan Li Feifei bukan sahaja menggunakan sumber Stanford, sebuah universiti terkemuka, tetapi juga mendapat sokongan padu daripada NVIDIA.

Industri kecerdasan buatan domestik semasa masih belum cukup kukuh di peringkat infrastruktur, terutamanya bagi syarikat dan universiti biasa, yang menghadapi kekurangan sumber penyelidikan dan pembangunan.

Untuk membolehkan lebih ramai penyelidik mengambil bahagian, Tencent secara rasmi membuka "Honor of Kings AI Open Research Environment" kepada orang ramai pada 21 November tahun ini.

Pengguna hanya perlu mendaftar akaun di laman web rasmi Enlightenment Platform, menyerahkan maklumat dan lulus semakan platform untuk memuat turunnya secara percuma.

Apa gunanya membiarkan AI belajar mengalahkan raja?

Pautan tapak web: https://aiarena.tencent.com/aiarena/zh/open-gamecore

Perlu dinyatakan bahawa untuk menyokong lebih baik sarjana dan pembangun algoritma dalam penyelidikan mereka, Platform Pencerahan bukan sahaja merangkumi "Persekitaran Penyelidikan Terbuka AI Honor of Kings" untuk kemudahan penggunaan, tetapi juga menyediakan kod Standard dan rangka kerja latihan.

Apa gunanya membiarkan AI belajar mengalahkan raja?

Seterusnya, mari kita rasai pengalaman "cetek" tentang cara memulakan projek latihan AI di Platform Pencerahan!

Memandangkan kita mahu AI "bermain" "Honor of Kings", perkara pertama yang perlu kita lakukan ialah menjadikan "badan pintar" yang digunakan untuk mengawal hero.

Kedengarannya agak rumit? Walau bagaimanapun, dalam "Persekitaran Penyelidikan Terbuka AI Glory of Kings", ini sebenarnya sangat mudah.

Pertama, mulakan pelayan gamecore:

cd gamecoregamecore-server.exe server --server-address :23432

Pasang pakej hok_env:

git clone https://github.com/tencent-ailab/hok_env.gitcd hok_env/hok_env/pip install -e .

Dan jalankan skrip ujian:

cd hok_env/hok_env/hok/unit_test/python test_env.py

Kini, anda boleh mengimport hok dan memanggil hok.HoK1v1.load_game untuk mencipta persekitaran:

import hok
env = HoK1v1.load_game(runtime_id=0, game_log_path="./game_log", gamecore_path="~/.hok", config_path="config.dat",config_dicts=[{"hero":"diaochan", "skill":"rage"} for _ in range(2)])

Seterusnya, kami mendapat pemerhatian pertama kami daripada ejen dengan menetapkan semula persekitaran:

obs, reward, done, infos = env.reset()

obs ialah senarai A Tatasusunan NumPy yang menerangkan pemerhatian ejen terhadap persekitaran.

ganjaran ialah senarai skalar titik terapung yang menerangkan ganjaran segera yang diterima daripada persekitaran.

selesai ialah senarai boolean yang menerangkan keadaan permainan. Pembolehubah

info ialah sekumpulan kamus yang panjangnya ialah bilangan ejen.

Kemudian lakukan operasi di persekitaran sehingga masa tamat atau ejen dibunuh.

Di sini, hanya gunakan kaedah env.step.

done = False
while not done:
action = env.get_random_action()
obs, reward, done, state = env.step(action)

Seperti "Persekitaran Pembelajaran StarCraft II", anda juga boleh menggunakan alat visualisasi untuk melihat tayangan semula ejen dalam "Persekitaran Penyelidikan Terbuka AI Honor of Kings".

Pada ketika ini, ejen pertama anda telah dibuat.

Seterusnya, anda boleh membawa "dia" untuk melakukan pelbagai latihan!

Apa gunanya membiarkan AI belajar mengalahkan raja?

Bercakap mengenai perkara ini, mungkin tidak sukar untuk semua orang mendapati bahawa "Persekitaran Penyelidikan Terbuka AI Honor of Kings" bukan sekadar latihan persekitaran Persekitaran AI menjadikan keseluruhan proses mudah dan mudah difahami melalui operasi biasa dan dokumentasi yang kaya.

Dengan cara ini, lebih ramai orang yang berminat untuk memasuki bidang AI boleh bermula dengan mudah.

Permainan + AI, apakah kemungkinan lain yang ada?

Melihat perkara ini, sebenarnya ada persoalan yang masih belum terjawab - sebagai platform penyelidikan yang diterajui oleh perusahaan, mengapa Tencent Enlightenment Platform memilih untuk membukanya secara besar-besaran?

Pada Ogos tahun ini, Chengdu Artificial Intelligence Industry Ecological Alliance dan badan pemikir Yuqian Consultants bersama-sama mengeluarkan laporan AI permainan pertama negara. Tidak sukar untuk melihat daripada laporan bahawa permainan adalah salah satu perkara utama dalam mempromosikan pembangunan kecerdasan buatan Secara khusus, permainan boleh meningkatkan aplikasi AI dalam tiga aspek.

Apa gunanya membiarkan AI belajar mengalahkan raja?


Pertama sekali, permainan adalah tempat latihan dan ujian yang sangat baik untuk AI.

  • Lelaran pantas: Permainan ini boleh berinteraksi dan mencuba dan dibuat sesuka hati, tanpa sebarang kos sebenar Pada masa yang sama, terdapat mekanisme ganjaran yang jelas, yang boleh menunjukkan sepenuhnya keberkesanan algoritma.
  • Tugas yang kaya: Terdapat banyak jenis permainan, dengan pelbagai tahap kesukaran dan kerumitan Kecerdasan buatan mesti menggunakan strategi yang kompleks untuk menanganinya.
  • Kriteria kejayaan atau kegagalan yang jelas: Tentukan keupayaan kecerdasan buatan melalui skor permainan untuk memudahkan pengoptimuman lanjut kecerdasan buatan.

Kedua, permainan boleh melatih kebolehan AI yang berbeza dan membawa kepada aplikasi yang berbeza.

Sebagai contoh, permainan catur melatih AI untuk membuat keputusan urutan dan memperoleh keupayaan potongan jangka panjang melatih AI untuk menyesuaikan diri secara dinamik dan memperoleh kebolehsuaian permainan strategi masa nyata; keupayaan ingatan mesin, keupayaan perancangan jangka panjang, keupayaan kerjasama pelbagai ejen, dan koheren tindakan.

Selain itu, permainan ini juga boleh memecahkan kekangan alam sekitar dan menggalakkan pembuatan keputusan yang bijak.

Sebagai contoh, permainan boleh mempromosikan pemaparan masa nyata simulasi maya dan penyegerakan maklumat simulasi maya serta meningkatkan terminal interaktif simulasi maya.

Apa gunanya membiarkan AI belajar mengalahkan raja?

Platform pencerahan bergantung pada kelebihan Tencent AI Lab dan King of Glory dari segi algoritma, kuasa pengkomputeran, senario kompleks, dll., selepas dibuka, ia boleh Membina jambatan kerjasama yang berkesan antara permainan dan pembangunan AI, menghubungkan pembinaan disiplin universiti, organisasi persaingan, dan inkubasi bakat industri. Apabila kumpulan bakat mencukupi, kemajuan penyelidikan saintifik dan aplikasi komersial akan muncul seperti cendawan selepas hujan.

Dalam dua tahun yang lalu, Platform Kaiwu telah mengambil banyak langkah dalam bidang industri, akademik dan penyelidikan: ia mengadakan "Pertandingan Pembelajaran Pengukuhan Pelbagai Agen Kaiwu", yang menarik minat Penyelidik TOP2 termasuk Qingbei Sekumpulan pasukan universiti terkemuka, termasuk universiti berprestij, mengambil bahagian dalam konsortium sains dan pendidikan universiti, Sekolah Sains dan Teknologi Maklumat Universiti Peking melancarkan kursus elektif popular "Algoritma dalam Permainan AI". -kerja rumah sekolah adalah untuk menjalankan eksperimen dalam persekitaran Honor of Kings 1V1...

Melihat ke masa depan, kita boleh menjangkakan bahawa bakat-bakat ini yang telah menjadi global dengan bantuan " Platform Enlightenment" akan memancar ke pelbagai bidang industri AI, merealisasikan perkembangan penuh ekologi huluan dan hiliran platform itu.

Atas ialah kandungan terperinci Apa gunanya membiarkan AI belajar mengalahkan raja?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam