Maison > Article > Périphériques technologiques > La boîte noire d'AlphaZero est ouverte ! Article DeepMind publié dans PNAS
Les échecs ont toujours été un terrain d'essai pour l'IA. Il y a 70 ans, Alan Turing émettait l’hypothèse qu’il serait possible de construire une machine à jouer aux échecs capable d’apprendre par elle-même et de s’améliorer continuellement grâce à sa propre expérience. "Deep Blue", apparu au siècle dernier, a vaincu les humains pour la première fois, mais il s'est appuyé sur des experts pour coder les connaissances humaines en matière d'échecs. AlphaZero, né en 2017, a réalisé la conjecture de Turing en tant que machine d'apprentissage par renforcement pilotée par un réseau neuronal.
AlphaZero n'a pas besoin d'utiliser d'algorithmes heuristiques conçus artificiellement, ni de regarder des humains jouer aux échecs, mais est entièrement formé en jouant aux échecs par lui-même.
Alors, apprend-il vraiment des concepts humains sur les échecs ? Il s’agit d’un problème d’interprétabilité du réseau neuronal.
En réponse, Demis Hassabis, l'auteur d'AlphaZero, a collaboré avec des collègues de DeepMind et des chercheurs de Google Brain sur une étude visant à trouver des preuves de concepts d'échecs humains dans le réseau neuronal d'AlphaZero, montrant comment le réseau a acquis pendant l'entraînement le timing et le placement de ces concepts a également révélé le style de jeu d'échecs différent d'AlphaZero par rapport aux humains. L'article a été récemment publié dans PNAS.
Adresse papier : https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119
Le réseau AlphaZero l'architecture contient une épine dorsale Le réseau résiduel du réseau (ResNet) et le responsable de la politique et le responsable de la valeur distincts ResNet se composent d'une série de couches composées de blocs de réseau et de connexions sautées.
En termes d'itérations d'entraînement, AlphaZero démarre avec un réseau neuronal avec des paramètres initialisés de manière aléatoire, joue aux échecs à plusieurs reprises contre lui-même, apprend l'évaluation de la position des pièces d'échecs et est entraîné plusieurs fois en fonction des données générées dans le processus.
Pour déterminer dans quelle mesure le réseau AlphaZero représente les concepts d'échecs compris par l'homme, cette étude a utilisé des méthodes de sondage linéaires clairsemées pour cartographier les changements dans les paramètres du réseau au cours de l'entraînement en changements dans les concepts compréhensibles par l'homme.
Commencez par définir le concept comme une fonction définie par l'utilisateur, comme indiqué en orange dans la figure 1. La fonction linéaire généralisée g est entraînée comme une sonde pour se rapprocher d'un concept d'échecs c. La qualité de l'approximation g indique dans quelle mesure la couche code (linéairement) le concept. Pour un concept donné, le processus est répété pour les séquences de réseau produites lors du processus de formation pour toutes les couches de chaque réseau.
Figure 1 : Exploration des concepts d'échecs codés par l'homme dans le réseau AlphaZero (bleu). ♗ Mobilité (mobilité), vous pouvez écrire une fonction pour comparer nos scores et ceux de l'ennemi lors du déplacement des pièces d'échecs.
Dans cette expérience, le concept de fonction a été spécifié à l'avance, encapsulant la connaissance du domaine spécifique des échecs.
La prochaine étape consiste à entraîner la sonde. Les chercheurs ont utilisé 10 ^ 5 positions d'échecs naturelles dans l'ensemble de données ChessBase comme ensemble d'entraînement et ont formé une sonde de régression clairsemée g à partir d'une activation de réseau de profondeur d pour prédire la valeur d'un concept donné c.
En comparant les réseaux à différentes étapes de formation du cycle d'auto-apprentissage AlphaZero et les scores de différentes sondes de concepts à différentes couches de chaque réseau, l'heure et la position auxquelles le réseau a appris un certain concept peuvent être extraites.
Enfin, nous obtenons le diagramme quoi, quand et où de chaque concept, qui sont les trois indicateurs de "quel est le concept en cours de calcul", "où dans le réseau le calcul a-t-il lieu" et "quand le concept apparaît-il". pendant la formation réseau" Visualisez. Comme le montre la figure 2.
Figure 2 : Les concepts de A à B sont « évaluation du score total », « avons-nous été généralisés », « évaluation de la menace », « pouvons-nous vaincre l'ennemi » « Est-ce que le reine du camp ?", "Le mouvement de l'ennemi va-t-il tuer notre camp ?", "Evaluation du score de force des pièces", "Le score de force des pièces", "Avons-nous les soldats du roi ?"
On peut voir sur la figure C qu'à mesure qu'AlphaZero devient plus fort, la fonction du concept de « menaces » et la représentation d'AlphaZero (qui peut être détecté par des sondes linéaires) deviennent de moins en moins pertinentes.
Un tel graphique quoi-quand-où comprend les deux lignes de base nécessaires à la comparaison des méthodes de détection, l'une est la régression d'entrée, affichée à la couche 0, et l'autre est la régression à partir des activations de réseau avec des poids aléatoires, lors de l'entraînement. étape 0 affichée partout. À partir des résultats de la figure ci-dessus, on peut conclure que les changements dans la précision de la régression sont entièrement déterminés par les changements dans la représentation du réseau.
De plus, les résultats de nombreux graphiques quoi-quand-où montrent le même schéma, c'est-à-dire que la précision de la régression de l'ensemble du réseau est très faible jusqu'à environ 32 000 pas, et elle ne commence pas à s'améliorer rapidement avec le augmentation de la profondeur du réseau, puis se stabilise et reste inchangé dans les couches suivantes. Ainsi, tous les calculs liés aux concepts ont lieu relativement tôt dans le réseau, tandis que les blocs résiduels suivants effectuent une sélection de déplacement ou calculent des fonctionnalités en dehors de l'ensemble de concepts donné.
De plus, au fur et à mesure de la formation, de nombreux concepts définis par l'homme peuvent être prédits à partir des représentations d'AlphaZero avec une grande précision de prédiction.
Pour les concepts plus avancés, les chercheurs ont trouvé des différences dans les domaines dans lesquels AlphaZero les maîtrisait. Premièrement, les concepts qui sont significativement différents de zéro à 2 000 étapes de formation sont « matériel » et « espace » ; des concepts plus complexes tels que « sécurité royale », « menaces » et « mobilité » sont significativement différents de zéro à 8 000 étapes de formation. Zéro, et n'augmente substantiellement qu'après 32 000 étapes d'entraînement. Ce résultat est cohérent avec le point en forte hausse illustré par le graphique quoi, quand et où de la figure 2.
De plus, une caractéristique notable de la plupart des graphiques quoi-quand-où est que la précision de la régression du réseau augmente rapidement au début, puis atteint un plateau ou diminue. Cela suggère que l’ensemble des concepts découverts jusqu’à présent par AlphaZero ne détecte que les couches antérieures du réseau et que la compréhension des couches ultérieures nécessite de nouvelles techniques de détection de concepts.
La stratégie d'ouverture d'AlphaZero est différente de celle des humainsAprès avoir observé qu'AlphaZero avait appris les concepts d'échecs humains, les chercheurs ont exploré plus en détail la compréhension d'AlphaZero des tactiques d'échecs en termes de stratégie d'ouverture, car le choix de l'ouverture implique également que les joueurs comprennent les concepts associés. .
Les chercheurs ont observé qu'AlphaZero et les humains avaient des stratégies d'ouverture différentes : au fil du temps, AlphaZero a rétréci l'éventail des choix, tandis que les humains ont élargi l'éventail des choix.
La figure 3A montre l'évolution historique de la préférence humaine pour le premier coup des blancs. Au début, e4 était populaire comme premier coup, et les stratégies d'ouverture ultérieures sont devenues plus équilibrées et flexibles.
La figure 3B montre l'évolution de la stratégie d'ouverture d'AlphaZero ainsi que les étapes de formation. Comme vous pouvez le constater, AlphaZero commence toujours par peser toutes les options de manière égale, puis réduit progressivement les options.
Figure 3 : Comparaison d'AlphaZero et des préférences humaines pour la première étape sur les étapes et le temps d'entraînement.
Cela contraste fortement avec l'évolution des connaissances humaines, qui s'étend progressivement à partir du e4, alors qu'AlphaZero favorise clairement le d4 dans les étapes ultérieures de la formation. Cette préférence n'a cependant pas besoin d'être surexpliquée, car l'entraînement au jeu personnel est basé sur un jeu rapide avec beaucoup d'aléatoire ajouté pour faciliter l'exploration.
La raison de cette différence n'est pas claire, mais elle reflète une différence fondamentale entre les humains et les réseaux de neurones artificiels. Un facteur possible pourrait être que les données historiques sur les échecs humains mettent l'accent sur les connaissances collectives des joueurs maîtres, alors que les données d'AlphaZero incluent le jeu d'échecs de niveau débutant et une seule stratégie évoluée.
Alors, lorsque le réseau neuronal d'AlphaZero est entraîné plusieurs fois, montrera-t-il une préférence stable pour certaines stratégies d'ouverture ?
Le résultat de la recherche est que dans de nombreux cas, cette préférence n'est pas stable dans différentes formations, et les stratégies d'ouverture d'AlphaZero sont très diverses. Par exemple, dans l'ouverture classique de Ruy Lopez (communément appelée « ouverture espagnole »), AlphaZero a une préférence pour le choix du noir au début et suit la méthode de jeu typique, à savoir 1.e4 e5, 2.Cf3 Cc6, 3. .Bb5.
Figure 4 : Ruy Lopez démarre
Dans différentes formations, AlphaZero convergera progressivement vers l'un des 3.f6 et 3.a6. De plus, différentes versions du modèle AlphaZero ont chacune montré une forte préférence pour une action plutôt qu’une autre, et cette préférence a été établie dès le début de la formation.
C'est une preuve supplémentaire qu'il existe une diversité de parties d'échecs réussies, et cette diversité existe non seulement entre les humains et les machines, mais également à travers les différentes itérations de formation d'AlphaZero.
Alors, quel est le lien entre les résultats de recherche ci-dessus sur les stratégies d'ouverture et la compréhension des concepts d'AlphaZero ?
Cette étude a révélé qu'il existe un point d'inflexion clair dans les graphiques quoi-quand-où de divers concepts, qui coïncide avec des changements significatifs dans les préférences d'ouverture. En particulier, les concepts de matériau et de mobilité semblent être directement liés. stratégies d'ouverture.
La notion de matière a été principalement apprise entre les étapes d'entraînement 10k et 30k, et la notion de mobilité des pièces a été progressivement intégrée dans la tête de valeur d'AlphaZero au cours de la même période. Une compréhension de base de la valeur matérielle des pièces d’échecs devrait précéder une compréhension de la mobilité des pièces d’échecs. AlphaZero a ensuite intégré cette théorie dans les préférences d'ouverture entre 25 000 et 60 000 étapes d'entraînement.
L'auteur a analysé plus en détail l'évolution des connaissances du réseau AlphaZero sur les échecs : d'abord la découverte de la puissance des échecs ; puis la croissance explosive des connaissances de base dans un court laps de temps, principalement les concepts liés à la mobilité et enfin l'étape d'amélioration ; La stratégie d'ouverture du réseau neuronal est affinée au fil de centaines de milliers d'étapes de formation. Même si la durée globale de l’apprentissage est longue, des capacités de base spécifiques émergent rapidement dans un laps de temps relativement court.
L'ancien champion du monde d'échecs Vladimir Kramnik a également été amené à étayer cette conclusion, et ses observations étaient cohérentes avec le processus ci-dessus.
Enfin, ce travail démontre que la représentation d'échiquier apprise par le réseau AlphaZero est capable de reconstruire de nombreux concepts d'échecs humains, et détaille le contenu conceptuel appris par le réseau, le temps qu'il faut pour apprendre les concepts en temps de formation, et l'emplacement du réseau des concepts informatiques. De plus, le style de jeu d’échecs d’AlphaZero n’est pas le même que celui des humains.
Maintenant que nous comprenons les réseaux de neurones en termes du concept d'échecs défini par l'homme, la prochaine question sera : les réseaux de neurones peuvent-ils apprendre des choses au-delà de la connaissance humaine ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!