Maison  >  Article  >  Périphériques technologiques  >  À quoi sert de laisser l’IA apprendre à battre le roi ?

À quoi sert de laisser l’IA apprendre à battre le roi ?

王林
王林avant
2023-04-11 19:28:101167parcourir

Le 28 novembre, NeurIPS 2022 a officiellement ouvert ses portes.

En tant que l'un des événements d'intelligence artificielle les plus prestigieux au monde, NeurIPS est au centre de l'attention dans le domaine de l'informatique à la fin de chaque année. Les articles acceptés par NeurIPS représentent le plus haut niveau de recherche actuelle en neurosciences et en intelligence artificielle, et reflètent également l'évolution des tendances de l'industrie.

Ce qui est intéressant, c'est que les « concurrents » de cette année semblent avoir un penchant particulier pour les « jeux » dans leurs recherches.

Par exemple, le MineDojo de l'équipe de Li Feifei, basé sur l'environnement de jeu Minecraft, a remporté le prix du meilleur ensemble de données et du meilleur article de référence. S'appuyant sur l'ouverture du jeu, les chercheurs peuvent former des agents à travers différents types de tâches dans MineDojo, donnant ainsi à l'IA des capacités plus générales.

À quoi sert de laisser l’IA apprendre à battre le roi ?

Et grâce au tarif d'admission strict, c'est aussi un autre papier inclus dans le domaine du jeu, qui peut intéresser de nombreux joueurs.

Après tout, qui n’a pas joué au Roi des Rois ?

À quoi sert de laisser l’IA apprendre à battre le roi ?

Article "Arena : Un environnement de généralisation pour l'apprentissage par renforcement compétitif"

Adresse : https://openreview.net/pdf?id=7e6W6LEOBg3

Dans le texte , Les chercheurs ont proposé un environnement de test basé sur le jeu MOBA "Honor of Kings". Le but est en fait similaire à celui de MineDojo : entraîner l’IA.

Pourquoi les environnements de jeu MOBA sont-ils si populaires ?

Depuis que DeepMind a lancé AlphaGo, les jeux, en tant qu'environnement simulé avec un haut degré de liberté et une grande complexité, sont depuis longtemps devenus un choix important pour la recherche et les expériences en IA.

Cependant, comparés aux humains qui peuvent continuellement apprendre à partir de tâches ouvertes, les agents formés à des jeux moins complexes ne peuvent pas généraliser leurs capacités au-delà de tâches spécifiques. Pour faire simple, ces IA ne peuvent jouer qu’aux échecs ou aux anciens jeux Atari.

Afin de développer une IA qui puisse être plus « polyvalente », la recherche universitaire s'est progressivement déplacée des jeux de société vers des jeux plus complexes, notamment des jeux d'information imparfaits (comme le poker) et des jeux de stratégie (comme comme les jeux MOBA et RTS).

Dans le même temps, comme l'a dit l'équipe de Li Feifei dans l'article primé, pour que l'agent puisse généraliser à davantage de tâches, l'environnement de formation doit fournir suffisamment de tâches.

À quoi sert de laisser l’IA apprendre à battre le roi ?

DeepMind, qui s'est appuyé sur AlphaGo et son dérivé AlphaZero pour vaincre tous les joueurs invincibles du cercle de Go, s'en est vite rendu compte.

En 2016, DeepMind s'est associé à Blizzard pour lancer le "StarCraft II Learning Environment" (SC2LE) basé sur "StarCraft II" avec une complexité spatiale de 10 à la puissance 1685, offrant aux chercheurs des spécifications d'action et de récompense pour l'agent est fourni, ainsi qu'une interface Python open source pour communiquer avec le moteur de jeu.

À quoi sert de laisser l’IA apprendre à battre le roi ?

Il existe également un "terrain d'entraînement IA" avec d'excellentes qualifications en Chine -

En tant que jeu MOBA bien connu, l'espace d'état d'action du joueur dans "Honor of Kings" peut atteindre 10 à la puissance 20 000, bien plus grand que Go et d'autres jeux, et même plus que le nombre total d'atomes dans l'univers entier (10 à la puissance 80).

Comme DeepMind, le laboratoire d'IA de Tencent s'est également associé à « Honor of Kings » pour développer conjointement le « Honor of Kings AI Open Research Environment » qui est plus adapté à la recherche sur l'IA.

À quoi sert de laisser l’IA apprendre à battre le roi ?

Actuellement, « l'environnement de recherche ouvert Honor of Kings AI » comprend un environnement de combat 1v1 et un modèle d'algorithme de base, et prend en charge les tâches de combat miroir et les tâches de combat non miroir pour 20 héros.

Plus précisément, « l'environnement de recherche ouvert King of Glory AI » peut prendre en charge 20 × 20 = 400 sous-tâches de combat en ne considérant que la sélection des héros des deux côtés. Si vous incluez les compétences d'invocateur, il y aura 40 000 quêtes de départ.

Afin de permettre à chacun de mieux comprendre les défis de généralisation que l'agent accepte dans "Honor of Kings AI Open Research Environment", nous pouvons utiliser les deux tests de l'article pour le vérifier :

À quoi sert de laisser l’IA apprendre à battre le roi ?

Créez d'abord un arbre de comportement AI (BT), dont le niveau est "or" d'entrée de gamme. L’opposé est l’agent (RL) formé par l’algorithme d’apprentissage par renforcement.

Dans la première expérience, seuls Diao Chan (RL) et Diao Chan (BT) étaient autorisés à se battre, puis le RL entraîné (Diao Chan) a été utilisé pour défier différents héros (BT).

Les résultats après 98 séries de tests sont présentés dans la figure ci-dessous :

Lorsque le héros adverse change, les performances de la même stratégie entraînée chutent fortement. Étant donné que les changements chez les héros adverses rendent l’environnement de test différent de l’environnement d’entraînement, les stratégies apprises par les méthodes existantes manquent de généralisation.

À quoi sert de laisser l’IA apprendre à battre le roi ?

Figure 1 Défi de généralisation entre adversaires

Dans la deuxième expérience, seuls Diao Chan (RL) et Diao Chan (BT) ont été autorisés à concourir, puis le modèle RL entraîné a été utilisé. Contrôle d'autres héros pour défier Diao Chan (BT).

Les résultats après 98 séries de tests sont présentés dans la figure ci-dessous :

Lorsque la cible contrôlée par le modèle passe de Diao Chan à d'autres héros, les performances de la même stratégie d'entraînement chutent fortement. Parce que le changement de héros cible rend le sens de l'action différent des actions de Diao Chan dans l'environnement d'entraînement.

À quoi sert de laisser l’IA apprendre à battre le roi ?

Figure 2 Défi de généralisation multi-cibles

La raison de ce résultat est simple Chaque héros a ses propres compétences opérationnelles uniques. Un seul agent formé peut obtenir Après avoir trouvé un nouveau héros, si vous ne savez pas comment l'utiliser, vous ne pouvez que fermer les yeux.

Il en va de même pour les joueurs humains. Les joueurs qui peuvent « tuer au hasard » au milieu peuvent ne pas être en mesure d'obtenir un bon KDA après être passés dans la jungle.

Il n'est pas difficile de voir que cela rejoint effectivement la question que nous avons soulevée au début : il est difficile de former une IA « universelle » dans un environnement simple. Les jeux MOBA de grande complexité fournissent simplement un environnement pratique pour tester la généralisation du modèle.

Bien sûr, les jeux ne peuvent pas être utilisés directement pour entraîner l'IA, c'est pourquoi un « terrain d'entraînement » spécialement optimisé a vu le jour.

Ainsi, les chercheurs peuvent tester et entraîner leurs propres modèles dans des environnements tels que « StarCraft II Learning Environment » et « Glory of Kings AI Open Research Environment ».

Comment les chercheurs nationaux peuvent-ils accéder aux ressources appropriées de la plateforme ?

Le développement de DeepMind est indissociable du fort soutien de Google. MineDojo proposé par l'équipe de Li Feifei utilise non seulement les ressources de Stanford, une université de premier plan, mais bénéficie également du fort soutien de NVIDIA.

L'industrie nationale actuelle de l'intelligence artificielle n'est toujours pas assez solide au niveau des infrastructures, en particulier pour les entreprises ordinaires et les universités, qui sont confrontées à une pénurie de ressources de recherche et développement.

Afin de permettre à davantage de chercheurs de participer, Tencent a officiellement ouvert au public le « Honor of Kings AI Open Research Environment » le 21 novembre de cette année.

Les utilisateurs doivent simplement créer un compte sur le site officiel d'Enlightenment Platform, soumettre des informations et passer l'examen de la plateforme pour la télécharger gratuitement.

À quoi sert de laisser l’IA apprendre à battre le roi ?

Lien du site : https://aiarena.tencent.com/aiarena/zh/open-gamecore

Il convient de mentionner que afin de mieux soutenir les universitaires et les développeurs d'algorithmes, pour la recherche , la plateforme Enlightenment encapsule non seulement « l'environnement de recherche ouvert Glory of Kings AI » pour une utilisation facile, mais fournit également du code standard et des cadres de formation.

À quoi sert de laisser l’IA apprendre à battre le roi ?

Ensuite, vivons une expérience « superficielle » sur la façon de démarrer un projet de formation en IA sur Enlightenment Platform !

Puisque nous voulons que l'IA « joue » à « Honor of Kings », la première chose que nous devons faire est de créer le « corps intelligent » utilisé pour contrôler le héros.

Ça paraît un peu compliqué ? Cependant, dans le « Glory of Kings AI Open Research Environment », c'est en fait très simple.

Tout d'abord, démarrez le serveur gamecore :

cd gamecoregamecore-server.exe server --server-address :23432

Installez le package hok_env :

git clone https://github.com/tencent-ailab/hok_env.gitcd hok_env/hok_env/pip install -e .

et exécutez le script de test :

cd hok_env/hok_env/hok/unit_test/python test_env.py

Maintenant, vous pouvez importer hok et appeler hok.HoK1v1.load_ jeu pour créer l'environnement Voici :

import hok
env = HoK1v1.load_game(runtime_id=0, game_log_path="./game_log", gamecore_path="~/.hok", config_path="config.dat",config_dicts=[{"hero":"diaochan", "skill":"rage"} for _ in range(2)])

Ensuite, nous obtenons notre première observation de l'agent en réinitialisant l'environnement :

obs, reward, done, infos = env.reset()

obs est une liste de tableaux NumPy décrivant les observations de l'agent sur l'environnement.

reward est une liste de scalaires à virgule flottante décrivant la récompense immédiate reçue de l'environnement.

done est une liste booléenne décrivant l'état du jeu. La variable

infos est un tuple de dictionnaires dont la longueur est le nombre d'agents.

Ensuite, effectuez des opérations dans l'environnement jusqu'à ce que le temps soit écoulé ou que l'agent soit tué.

Ici, utilisez simplement la méthode env.step.

done = False
while not done:
action = env.get_random_action()
obs, reward, done, state = env.step(action)

Comme le "StarCraft II Learning Environment", vous pouvez également utiliser des outils de visualisation pour visualiser la rediffusion de l'agent dans "Honor of Kings AI Open Research Environment".

À ce stade, votre premier agent a été créé.

Ensuite, vous pourrez l'emmener « lui » pour effectuer divers entraînements !

À quoi sert de laisser l’IA apprendre à battre le roi ?

En parlant de cela, il n'est probablement pas difficile pour tout le monde de constater que « l'environnement de recherche ouvert sur l'IA Honor of Kings » ne fournit pas simplement un environnement dans lequel l'IA peut être formée, mais grâce à des opérations familières et une documentation riche. , rendant l'ensemble du processus simple et facile à comprendre.

Cela permettra à davantage de personnes intéressées à entrer dans le domaine de l'IA de se lancer plus facilement.

Jeu + IA, quelles sont les autres possibilités ?

En voyant cela, il y a en fait une question qui reste sans réponse : en tant que plateforme de recherche dirigée par des entreprises, pourquoi Tencent Enlightenment Platform choisit-elle de l'ouvrir à grande échelle ?

En août de cette année, l'Alliance écologique de l'industrie de l'intelligence artificielle de Chengdu et le groupe de réflexion Yuqian Consultants ont publié conjointement le premier rapport sur l'IA des jeux du pays. Il n'est pas difficile de voir dans le rapport que les jeux sont l'un des points clés dans la promotion du développement de l'intelligence artificielle. Plus précisément, les jeux peuvent améliorer l'application de l'IA sous trois aspects.

À quoi sert de laisser l’IA apprendre à battre le roi ?


Tout d'abord, les jeux sont un excellent terrain d'entraînement et de test pour l'IA.

  • Itération rapide : le jeu peut être interagi, essayé et créé à volonté, sans aucun coût réel. En même temps, il existe un mécanisme de récompense évident, qui peut pleinement démontrer l'efficacité de l'algorithme.
  • Tâches riches : il existe de nombreux types de jeux avec des difficultés et des complexités diverses. L'intelligence artificielle doit adopter des stratégies complexes pour les gérer, ce qui reflète l'amélioration du niveau de l'algorithme.
  • Critères de réussite ou d'échec clairs : calibrez la capacité de l'intelligence artificielle grâce aux scores des jeux pour faciliter une optimisation ultérieure de l'intelligence artificielle.

Deuxièmement, les jeux peuvent entraîner différentes capacités de l'IA et conduire à différentes applications.

Par exemple, les jeux d'échecs entraînent l'IA à prendre des décisions séquentielles et à acquérir des capacités de déduction à long terme ; les jeux de cartes entraînent l'IA à s'adapter dynamiquement et à gagner en adaptabilité ; les jeux de stratégie en temps réel entraînent les capacités de mémoire machine de l'IA et ses capacités de planification à long terme. et capacités multi-agents. Capacité de collaboration et cohérence des mouvements.

De plus, le jeu peut également briser les contraintes environnementales et favoriser une prise de décision intelligente.

Par exemple, les jeux peuvent promouvoir le rendu en temps réel de la simulation virtuelle et la synchronisation des informations de simulation virtuelle, et mettre à niveau les terminaux interactifs de simulation virtuelle.

À quoi sert de laisser l’IA apprendre à battre le roi ?

La plateforme Enlightenment s'appuie sur les avantages de Tencent AI Lab et King of Glory en termes d'algorithmes, de puissance de calcul, de scénarios complexes, etc. Après ouverture, elle peut construire un pont et un lien pour une coopération efficace entre les jeux et l'IA. développement. Construction de disciplines universitaires, organisation de compétitions et incubation de talents industriels. Lorsque le vivier de talents sera suffisant, les progrès de la recherche scientifique et les applications commerciales surgiront comme des champignons après la pluie.

Au cours des deux dernières années, la plateforme Kaiwu a pris de nombreuses mesures dans les domaines de l'industrie, du monde universitaire et de la recherche : elle a organisé le « Concours d'apprentissage par renforcement multi-agents Kaiwu », attirant un groupe des meilleures équipes universitaires, dont le célèbre TOP2 des universités comme Qingbei ont participé ; ont créé un consortium universitaire pour la science et l'éducation, le cours au choix populaire de l'École des sciences et technologies de l'information de l'Université de Pékin "Algorithmes dans l'IA de jeu", les devoirs après l'école consistent à utiliser l'environnement Honor of Kings 1V1 pour faire des expériences...

En regardant vers l'avenir, vous pouvez Attente : ces talents qui se mondialisent avec l'aide de la plateforme « Enlightenment » rayonneront dans divers domaines de l'industrie de l'IA et réaliseront le plein épanouissement de l'écologie en amont et en aval de la plateforme .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer