Rumah > Artikel > Peranti teknologi > Kotak hitam AlphaZero dibuka! Kertas DeepMind diterbitkan dalam PNAS
Catur sentiasa menjadi medan pembuktian untuk AI. 70 tahun yang lalu, Alan Turing membuat hipotesis bahawa adalah mungkin untuk membina mesin permainan catur yang boleh belajar sendiri dan terus meningkat daripada pengalamannya sendiri. "Deep Blue" yang muncul pada abad yang lalu mengalahkan manusia buat kali pertama, tetapi ia bergantung pada pakar untuk mengekod pengetahuan catur manusia, yang dilahirkan pada 2017, merealisasikan sangkaan Turing sebagai mesin pembelajaran tetulang yang didorong oleh rangkaian saraf.
AlphaZero tidak perlu menggunakan mana-mana algoritma heuristik yang direka bentuk secara buatan, dan juga tidak perlu melihat manusia bermain catur, tetapi dilatih sepenuhnya dengan bermain catur sendiri.
Jadi, adakah ia benar-benar mempelajari konsep manusia tentang catur? Ini ialah masalah kebolehtafsiran rangkaian saraf.
Sebagai tindak balas, pengarang AlphaZero Demis Hassabis bekerjasama dengan rakan sekerja di DeepMind dan penyelidik di Google Brain dalam kajian untuk mencari bukti konsep catur manusia dalam rangkaian saraf AlphaZero Kami menunjukkan bila dan di mana semasa latihan rangkaian memperoleh konsep ini, dan juga menemui gaya permainan catur AlphaZero yang berbeza daripada manusia. Kertas itu baru-baru ini diterbitkan dalam PNAS.
Alamat kertas: https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119
Seni bina rangkaian AlphaZero termasuk rangkaian sisa tulang belakang (ResNet) dan Ketua Dasar dan Ketua Nilai yang berasingan terdiri daripada Satu siri lapisan terdiri daripada blok rangkaian dan sambungan langkau.
Dari segi lelaran latihan, AlphaZero bermula dengan rangkaian saraf dengan parameter yang dimulakan secara rawak dan berulang kali bermain catur melawan dirinya sendiri, belajar menilai kedudukan buah catur, membuat pelbagai ramalan berdasarkan data yang dihasilkan dalam masa latihan.
Untuk menentukan sejauh mana rangkaian AlphaZero mewakili konsep catur yang dimiliki oleh manusia, kajian ini menggunakan kaedah probing linear jarang untuk memetakan perubahan dalam parameter rangkaian semasa Latihan Perubahan dalam konsep yang boleh difahami oleh manusia.
Mulakan dengan mentakrifkan konsep sebagai fungsi yang ditentukan pengguna seperti yang ditunjukkan dalam oren dalam Rajah 1. Fungsi linear umum g dilatih sebagai probe untuk menghampiri konsep catur c. Kualiti anggaran g menunjukkan sejauh mana lapisan (linear) mengekod konsep. Untuk konsep tertentu, proses diulang untuk urutan rangkaian yang dihasilkan semasa proses latihan untuk semua lapisan dalam setiap rangkaian.
Rajah 1: Meneroka konsep catur yang dikodkan manusia dalam rangkaian AlphaZero (biru).
Sebagai contoh, anda boleh menggunakan fungsi untuk menentukan sama ada terdapat "Bishop" di sebelah atau tempat kami (♗):
Sudah tentu, terdapat banyak konsep catur yang lebih kompleks daripada contoh ini Sebagai contoh, untuk mobiliti buah catur, anda boleh menulis fungsi untuk membandingkan markah kami dan musuh. kepingan bergerak.
Dalam eksperimen ini, fungsi konsep telah dinyatakan terlebih dahulu dan merangkumi pengetahuan tentang bidang catur tertentu.
Langkah seterusnya ialah melatih probe. Para penyelidik menggunakan 10^5 kedudukan catur yang berlaku secara semula jadi dalam dataset ChessBase sebagai set latihan dan melatih probe regresi jarang g daripada pengaktifan rangkaian kedalaman d untuk meramalkan nilai konsep yang diberikan c.
Dengan membandingkan rangkaian pada langkah latihan yang berbeza dalam kitaran pembelajaran kendiri AlphaZero, dan markah probe konsep yang berbeza pada lapisan berbeza dalam setiap rangkaian, anda boleh mengekstrak pengetahuan bahawa rangkaian telah mempelajari tentang sesuatu konsep masa dan lokasi.
Akhir sekali, gambarajah apa-bila-di mana bagi setiap konsep diperoleh, yang memberikan pandangan tentang "apakah konsep yang dikira", "di mana pengiraan berlaku dalam rangkaian", dan "bilakah konsep muncul semasa latihan rangkaian" Visualisasikan ketiga-tiga penunjuk ini. Seperti yang ditunjukkan dalam Rajah 2.
Rajah 2: Konsep dari A hingga B ialah "penilaian jumlah markah" dan "adakah pasukan kita telah dikalahkan?" ", "Penilaian ancaman", "Bolehkah kita menangkap ratu musuh", "Adakah langkah musuh membunuh kita", "Penilaian markah kepingan", "Skor kepingan" , "Adakah kita mempunyai askar diraja sebelah?"
Seperti yang anda lihat dalam Rajah C, apabila AlphaZero menjadi lebih kuat, fungsi konsep "ancaman" dan perwakilan AlphaZero (boleh dikesan oleh probe linear) menjadi semakin meningkat tidak relevan.
Plot apa-bila-di mana termasuk dua garis dasar yang diperlukan untuk perbandingan kaedah pengesanan, satu ialah regresi input, ditunjukkan pada lapisan 0, dan satu lagi daripada rangkaian dengan pemberat rawak Regresi yang diaktifkan, ditunjukkan pada langkah latihan 0. Daripada keputusan dalam rajah di atas, dapat disimpulkan bahawa perubahan dalam ketepatan regresi sepenuhnya ditentukan oleh perubahan dalam perwakilan rangkaian.
Tambahan pula, hasil banyak plot apa-bila-di mana menunjukkan corak yang sama, iaitu ketepatan regresi keseluruhan rangkaian adalah sangat rendah sehingga kira-kira 32k langkah Ia meningkat dengan cepat dengan kedalaman rangkaian yang semakin meningkat, kemudian menstabilkan dan kekal tidak berubah dalam lapisan berikutnya. Jadi, semua pengiraan berkaitan konsep berlaku agak awal dalam rangkaian, manakala blok baki berikutnya sama ada melakukan pemilihan pergerakan atau ciri pengiraan di luar set konsep yang diberikan.
Selain itu, semasa latihan berlangsung, banyak konsep yang ditakrifkan oleh manusia boleh diramalkan daripada perwakilan AlphaZero dengan ketepatan ramalan yang tinggi.
Untuk konsep yang lebih maju, penyelidik mendapati perbezaan di mana AlphaZero menguasainya. Pertama, konsep yang berbeza secara ketara daripada sifar pada langkah latihan 2k ialah "bahan" dan "ruang"; Sifar, dan tidak meningkat dengan ketara sehingga selepas 32k langkah latihan. Keputusan ini konsisten dengan titik naik mendadak yang ditunjukkan oleh plot apa-bila-di mana dalam Rajah 2.
Selain itu, ciri ketara bagi kebanyakan graf apa-bila-di mana ialah ketepatan regresi rangkaian meningkat dengan cepat pada mulanya dan kemudian mencapai dataran tinggi atau menurun. Ini menunjukkan bahawa set konsep yang ditemui setakat ini dari AlphaZero hanya mengesan lapisan awal rangkaian, dan memahami lapisan kemudian memerlukan teknik pengesanan konsep baharu.
Strategi pembukaan AlphaZero berbeza daripada manusiaSelepas memerhatikan bahawa AlphaZero mempelajari konsep catur manusia, para penyelidik meneroka lagi taktik catur AlphaZero dari segi strategi pembukaan, kerana pilihan pembukaan juga membayangkan pemahaman pemain tentang konsep yang berkaitan.
Para penyelidik mendapati bahawa AlphaZero mempunyai strategi pembukaan yang berbeza daripada manusia: Lama kelamaan, AlphaZero mengecilkan pilihannya, manakala manusia Ia adalah untuk mengembangkan julat pilihan.
Rajah 3A menunjukkan evolusi sejarah keutamaan manusia untuk langkah pertama catur putih Pada peringkat awal, e4 popular sebagai langkah pertama, dan kemudiannya strategi pembukaan menjadi lebih seimbang Lebih fleksibel.
Rajah 3B menunjukkan evolusi strategi pembukaan AlphaZero bersama-sama dengan langkah latihan. Seperti yang anda lihat, AlphaZero sentiasa bermula dengan menimbang semua pilihan secara sama rata dan kemudian secara beransur-ansur mengecilkan pilihan.
Rajah 3: Perbandingan AlphaZero dan keutamaan manusia untuk langkah pertama berbanding langkah latihan dan dari semasa ke semasa.
Ini sangat berbeza dengan evolusi pengetahuan manusia, yang secara beransur-ansur berkembang bermula dengan e4, manakala AlphaZero jelas memihak kepada d4 pada peringkat latihan kemudian. Keutamaan ini tidak perlu diterangkan secara berlebihan, walau bagaimanapun, kerana latihan permainan sendiri adalah berdasarkan permainan pantas dengan banyak kerawanan ditambah untuk memudahkan penerokaan.
Sebab perbezaan ini tidak jelas, tetapi ia mencerminkan perbezaan asas antara manusia dan rangkaian saraf tiruan. Satu faktor yang mungkin adalah data sejarah tentang catur manusia memberi lebih penekanan pada pengetahuan kolektif pemain mahir, manakala data AlphaZero termasuk permainan catur peringkat pemula dan satu strategi yang berkembang.
Jadi, apabila rangkaian saraf AlphaZero dilatih beberapa kali, adakah ia akan menunjukkan keutamaan yang stabil untuk strategi pembukaan tertentu?
Hasil penyelidikan ialah dalam banyak kes, keutamaan ini tidak stabil dalam latihan yang berbeza, dan strategi pembukaan AlphaZero sangat pelbagai. Sebagai contoh, dalam pembukaan Ruy Lopez klasik (biasanya dikenali sebagai "pembukaan Sepanyol"), AlphaZero mempunyai keutamaan untuk memilih hitam pada peringkat awal dan mengikut kaedah permainan biasa, iaitu 1.e4 e5, 2.Nf3 Nc6, 3 .Bb5.
Rajah 4: Ruy Lopez bermula
Dan dalam latihan yang berbeza , AlphaZero akan bertumpu secara beransur-ansur kepada salah satu daripada 3.f6 dan 3.a6. Selain itu, versi berbeza model AlphaZero masing-masing menunjukkan keutamaan yang kuat untuk satu tindakan berbanding yang lain, dan keutamaan ini telah diwujudkan pada awal latihan.
Ini adalah bukti lanjut bahawa terdapat pelbagai jenis permainan catur yang berjaya, dan kepelbagaian ini wujud bukan sahaja antara manusia dan mesin, tetapi juga merentas lelaran latihan AlphaZero yang berbeza.
Jadi, apakah kaitan antara hasil penyelidikan di atas mengenai strategi pembukaan dan pemahaman konsep AlphaZero?
Kajian ini mendapati terdapat titik bengkok yang jelas dalam graf apa-bila-di mana pelbagai konsep, yang bertepatan dengan perubahan ketara dalam pilihan pembukaan, terutamanya bahan dan mobiliti Konsep nampaknya berkaitan langsung dengan strategi pembukaan.
Konsep bahan dipelajari terutamanya antara langkah latihan 10k dan 30k, dan konsep mobiliti kepingan disepadukan secara beransur-ansur ke dalam kepala nilai AlphaZero dalam tempoh yang sama. Pemahaman asas tentang nilai material buah catur harus mendahului pemahaman mobiliti buah catur. AlphaZero kemudiannya memasukkan teori ini ke dalam membuka keutamaan antara 25k dan 60k langkah latihan.
Pengarang menganalisis lebih lanjut evolusi pengetahuan rangkaian AlphaZero tentang catur: pertama penemuan kekuatan catur, kemudian pertumbuhan pesat pengetahuan asas dalam tetingkap masa yang singkat, terutamanya berkaitan dengan mobiliti Beberapa konsep; dan akhirnya fasa penghalusan, di mana strategi pembukaan rangkaian saraf diperhalusi melalui ratusan ribu langkah latihan. Walaupun masa pembelajaran keseluruhan adalah panjang, kebolehan asas tertentu muncul dengan cepat dalam tempoh masa yang agak singkat.
Bekas juara catur dunia Vladimir Kramnik turut dibawa masuk untuk memberikan sokongan untuk kesimpulan ini, dan pemerhatiannya konsisten dengan proses yang diterangkan di atas.
Akhir sekali, kerja ini menunjukkan bahawa perwakilan papan catur yang dipelajari oleh rangkaian AlphaZero boleh membina semula banyak konsep catur manusia, dan memperincikan kandungan konsep yang dipelajari oleh rangkaian, pada masa latihan mengikut masa yang diambil. untuk mempelajari konsep dan lokasi rangkaian konsep yang dikira. Selain itu, gaya permainan catur AlphaZero tidak sama dengan manusia.
Sekarang kita memahami rangkaian saraf dari segi konsep catur yang ditentukan manusia, soalan seterusnya ialah: Bolehkah rangkaian saraf mempelajari perkara di luar pengetahuan manusia?
Atas ialah kandungan terperinci Kotak hitam AlphaZero dibuka! Kertas DeepMind diterbitkan dalam PNAS. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!