Maison >Périphériques technologiques >IA >À quoi sert de laisser l'IA apprendre à battre le roi ?
Le 28 novembre, NeurIPS 2022 a officiellement ouvert ses portes.
En tant que l'un des événements d'intelligence artificielle les plus prestigieux au monde, NeurIPS est au centre de l'attention dans le domaine de l'informatique à la fin de chaque année. Les articles acceptés par NeurIPS représentent le plus haut niveau de recherche actuelle en neurosciences et en intelligence artificielle, et reflètent également l'évolution des tendances de l'industrie.
Ce qui est intéressant, c'est que les « concurrents » de cette année semblent avoir un penchant particulier pour les « jeux » dans leurs recherches.
Par exemple, le MineDojo de l'équipe de Li Feifei, basé sur l'environnement de jeu Minecraft, a remporté le prix du meilleur ensemble de données et du meilleur article de référence. S'appuyant sur l'ouverture du jeu, les chercheurs peuvent former des agents à travers différents types de tâches dans MineDojo, donnant ainsi à l'IA des capacités plus générales.
Et grâce au tarif d'admission strict, c'est aussi un autre papier inclus dans le domaine du jeu, qui peut intéresser de nombreux joueurs.
Après tout, qui n’a pas joué au Roi des Rois ?
Article "Arena : Un environnement de généralisation pour l'apprentissage par renforcement compétitif"
Adresse : https://openreview.net/pdf?id=7e6W6LEOBg3
Dans le texte , Les chercheurs ont proposé un environnement de test basé sur le jeu MOBA "Honor of Kings". Le but est en fait similaire à celui de MineDojo : entraîner l’IA.
Depuis que DeepMind a lancé AlphaGo, les jeux, en tant qu'environnement simulé avec un haut degré de liberté et une grande complexité, sont depuis longtemps devenus un choix important pour la recherche et les expériences en IA.
Cependant, comparés aux humains qui peuvent continuellement apprendre à partir de tâches ouvertes, les agents formés à des jeux moins complexes ne peuvent pas généraliser leurs capacités au-delà de tâches spécifiques. Pour faire simple, ces IA ne peuvent jouer qu’aux échecs ou aux anciens jeux Atari.
Afin de développer une IA qui puisse être plus « polyvalente », la recherche universitaire s'est progressivement déplacée des jeux de société vers des jeux plus complexes, notamment des jeux d'information imparfaits (comme le poker) et des jeux de stratégie (comme comme les jeux MOBA et RTS).
Dans le même temps, comme l'a dit l'équipe de Li Feifei dans l'article primé, pour que l'agent puisse généraliser à davantage de tâches, l'environnement de formation doit fournir suffisamment de tâches.
DeepMind, qui s'est appuyé sur AlphaGo et son dérivé AlphaZero pour vaincre tous les joueurs invincibles du cercle de Go, s'en est vite rendu compte.
En 2016, DeepMind s'est associé à Blizzard pour lancer le "StarCraft II Learning Environment" (SC2LE) basé sur "StarCraft II" avec une complexité spatiale de 10 à la puissance 1685, offrant aux chercheurs des spécifications d'action et de récompense pour l'agent est fourni, ainsi qu'une interface Python open source pour communiquer avec le moteur de jeu.
Il existe également un "terrain d'entraînement IA" avec d'excellentes qualifications en Chine -
En tant que jeu MOBA bien connu, l'espace d'état d'action du joueur dans "Honor of Kings" peut atteindre 10 à la puissance 20 000, bien plus grand que Go et d'autres jeux, et même plus que le nombre total d'atomes dans l'univers entier (10 à la puissance 80).
Comme DeepMind, le laboratoire d'IA de Tencent s'est également associé à « Honor of Kings » pour développer conjointement le « Honor of Kings AI Open Research Environment » qui est plus adapté à la recherche sur l'IA.
Actuellement, « l'environnement de recherche ouvert Honor of Kings AI » comprend un environnement de combat 1v1 et un modèle d'algorithme de base, et prend en charge les tâches de combat miroir et les tâches de combat non miroir pour 20 héros.
Plus précisément, « l'environnement de recherche ouvert King of Glory AI » peut prendre en charge 20 × 20 = 400 sous-tâches de combat en ne considérant que la sélection des héros des deux côtés. Si vous incluez les compétences d'invocateur, il y aura 40 000 quêtes de départ.
Afin de permettre à chacun de mieux comprendre les défis de généralisation que l'agent accepte dans "Honor of Kings AI Open Research Environment", nous pouvons utiliser les deux tests de l'article pour le vérifier :
Créez d'abord un arbre de comportement AI (BT), dont le niveau est "or" d'entrée de gamme. L’opposé est l’agent (RL) formé par l’algorithme d’apprentissage par renforcement.
Dans la première expérience, seuls Diao Chan (RL) et Diao Chan (BT) étaient autorisés à se battre, puis le RL entraîné (Diao Chan) a été utilisé pour défier différents héros (BT).
Les résultats après 98 séries de tests sont présentés dans la figure ci-dessous :
Lorsque le héros adverse change, les performances de la même stratégie entraînée chutent fortement. Étant donné que les changements chez les héros adverses rendent l’environnement de test différent de l’environnement d’entraînement, les stratégies apprises par les méthodes existantes manquent de généralisation.
Figure 1 Défi de généralisation entre adversaires
Dans la deuxième expérience, seuls Diao Chan (RL) et Diao Chan (BT) ont été autorisés à concourir, puis le modèle RL entraîné a été utilisé. Contrôle d'autres héros pour défier Diao Chan (BT).
Les résultats après 98 séries de tests sont présentés dans la figure ci-dessous :
Lorsque la cible contrôlée par le modèle passe de Diao Chan à d'autres héros, les performances de la même stratégie d'entraînement chutent fortement. Parce que le changement de héros cible rend le sens de l'action différent des actions de Diao Chan dans l'environnement d'entraînement.
Figure 2 Défi de généralisation multi-cibles
La raison de ce résultat est simple Chaque héros a ses propres compétences opérationnelles uniques. Un seul agent formé peut obtenir Après avoir trouvé un nouveau héros, si vous ne savez pas comment l'utiliser, vous ne pouvez que fermer les yeux.
Il en va de même pour les joueurs humains. Les joueurs qui peuvent « tuer au hasard » au milieu peuvent ne pas être en mesure d'obtenir un bon KDA après être passés dans la jungle.
Il n'est pas difficile de voir que cela rejoint effectivement la question que nous avons soulevée au début : il est difficile de former une IA « universelle » dans un environnement simple. Les jeux MOBA de grande complexité fournissent simplement un environnement pratique pour tester la généralisation du modèle.
Bien sûr, les jeux ne peuvent pas être utilisés directement pour entraîner l'IA, c'est pourquoi un « terrain d'entraînement » spécialement optimisé a vu le jour.
Ainsi, les chercheurs peuvent tester et entraîner leurs propres modèles dans des environnements tels que « StarCraft II Learning Environment » et « Glory of Kings AI Open Research Environment ».
Comment les chercheurs nationaux peuvent-ils accéder aux ressources appropriées de la plateforme ?
Le développement de DeepMind est indissociable du fort soutien de Google. MineDojo proposé par l'équipe de Li Feifei utilise non seulement les ressources de Stanford, une université de premier plan, mais bénéficie également du fort soutien de NVIDIA.
L'industrie nationale actuelle de l'intelligence artificielle n'est toujours pas assez solide au niveau des infrastructures, en particulier pour les entreprises ordinaires et les universités, qui sont confrontées à une pénurie de ressources de recherche et développement.
Afin de permettre à davantage de chercheurs de participer, Tencent a officiellement ouvert au public le « Honor of Kings AI Open Research Environment » le 21 novembre de cette année.
Les utilisateurs doivent simplement créer un compte sur le site officiel d'Enlightenment Platform, soumettre des informations et passer l'examen de la plateforme pour la télécharger gratuitement.
Lien du site : https://aiarena.tencent.com/aiarena/zh/open-gamecore
Il convient de mentionner que afin de mieux soutenir les universitaires et les développeurs d'algorithmes, pour la recherche , la plateforme Enlightenment encapsule non seulement « l'environnement de recherche ouvert Glory of Kings AI » pour une utilisation facile, mais fournit également du code standard et des cadres de formation.
Ensuite, vivons une expérience « superficielle » sur la façon de démarrer un projet de formation en IA sur Enlightenment Platform !
Puisque nous voulons que l'IA « joue » à « Honor of Kings », la première chose que nous devons faire est de créer le « corps intelligent » utilisé pour contrôler le héros.
Ça paraît un peu compliqué ? Cependant, dans le « Glory of Kings AI Open Research Environment », c'est en fait très simple.
Tout d'abord, démarrez le serveur gamecore :
cd gamecoregamecore-server.exe server --server-address :23432
Installez le package hok_env :
git clone https://github.com/tencent-ailab/hok_env.gitcd hok_env/hok_env/pip install -e .
et exécutez le script de test :
cd hok_env/hok_env/hok/unit_test/python test_env.py
Maintenant, vous pouvez importer hok et appeler hok.HoK1v1.load_ jeu pour créer l'environnement Voici :
import hok env = HoK1v1.load_game(runtime_id=0, game_log_path="./game_log", gamecore_path="~/.hok", config_path="config.dat",config_dicts=[{"hero":"diaochan", "skill":"rage"} for _ in range(2)])
Ensuite, nous obtenons notre première observation de l'agent en réinitialisant l'environnement :
obs, reward, done, infos = env.reset()
obs est une liste de tableaux NumPy décrivant les observations de l'agent sur l'environnement.
reward est une liste de scalaires à virgule flottante décrivant la récompense immédiate reçue de l'environnement.
done est une liste booléenne décrivant l'état du jeu. La variable
infos est un tuple de dictionnaires dont la longueur est le nombre d'agents.
Ensuite, effectuez des opérations dans l'environnement jusqu'à ce que le temps soit écoulé ou que l'agent soit tué.
Ici, utilisez simplement la méthode env.step.
done = False while not done: action = env.get_random_action() obs, reward, done, state = env.step(action)
Comme le "StarCraft II Learning Environment", vous pouvez également utiliser des outils de visualisation pour visualiser la rediffusion de l'agent dans "Honor of Kings AI Open Research Environment".
À ce stade, votre premier agent a été créé.
Ensuite, vous pourrez l'emmener « lui » pour effectuer divers entraînements !
En parlant de cela, il n'est probablement pas difficile pour tout le monde de constater que « l'environnement de recherche ouvert sur l'IA Honor of Kings » ne fournit pas simplement un environnement dans lequel l'IA peut être formée, mais grâce à des opérations familières et une documentation riche. , rendant l'ensemble du processus simple et facile à comprendre.
Cela permettra à davantage de personnes intéressées à entrer dans le domaine de l'IA de se lancer plus facilement.
En voyant cela, il y a en fait une question qui reste sans réponse : en tant que plateforme de recherche dirigée par des entreprises, pourquoi Tencent Enlightenment Platform choisit-elle de l'ouvrir à grande échelle ?
En août de cette année, l'Alliance écologique de l'industrie de l'intelligence artificielle de Chengdu et le groupe de réflexion Yuqian Consultants ont publié conjointement le premier rapport sur l'IA des jeux du pays. Il n'est pas difficile de voir dans le rapport que les jeux sont l'un des points clés dans la promotion du développement de l'intelligence artificielle. Plus précisément, les jeux peuvent améliorer l'application de l'IA sous trois aspects.
Tout d'abord, les jeux sont un excellent terrain d'entraînement et de test pour l'IA.
Deuxièmement, les jeux peuvent entraîner différentes capacités de l'IA et conduire à différentes applications.
Par exemple, les jeux d'échecs entraînent l'IA à prendre des décisions séquentielles et à acquérir des capacités de déduction à long terme ; les jeux de cartes entraînent l'IA à s'adapter dynamiquement et à gagner en adaptabilité ; les jeux de stratégie en temps réel entraînent les capacités de mémoire machine de l'IA et ses capacités de planification à long terme. et capacités multi-agents. Capacité de collaboration et cohérence des mouvements.
De plus, le jeu peut également briser les contraintes environnementales et favoriser une prise de décision intelligente.
Par exemple, les jeux peuvent promouvoir le rendu en temps réel de la simulation virtuelle et la synchronisation des informations de simulation virtuelle, et mettre à niveau les terminaux interactifs de simulation virtuelle.
La plateforme Enlightenment s'appuie sur les avantages de Tencent AI Lab et King of Glory en termes d'algorithmes, de puissance de calcul, de scénarios complexes, etc. Après ouverture, elle peut construire un pont et un lien pour une coopération efficace entre les jeux et l'IA. développement. Construction de disciplines universitaires, organisation de compétitions et incubation de talents industriels. Lorsque le vivier de talents sera suffisant, les progrès de la recherche scientifique et les applications commerciales surgiront comme des champignons après la pluie.
Au cours des deux dernières années, la plateforme Kaiwu a pris de nombreuses mesures dans les domaines de l'industrie, du monde universitaire et de la recherche : elle a organisé le « Concours d'apprentissage par renforcement multi-agents Kaiwu », attirant un groupe des meilleures équipes universitaires, dont le célèbre TOP2 des universités comme Qingbei ont participé ; ont créé un consortium universitaire pour la science et l'éducation, le cours au choix populaire de l'École des sciences et technologies de l'information de l'Université de Pékin "Algorithmes dans l'IA de jeu", les devoirs après l'école consistent à utiliser l'environnement Honor of Kings 1V1 pour faire des expériences...
En regardant vers l'avenir, vous pouvez Attente : ces talents qui se mondialisent avec l'aide de la plateforme « Enlightenment » rayonneront dans divers domaines de l'industrie de l'IA et réaliseront le plein épanouissement de l'écologie en amont et en aval de la plateforme .
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!