Heim >Technologie-Peripheriegeräte >KI >Welchen Sinn hat es, die KI lernen zu lassen, den König zu schlagen?
Am 28. November wurde NeurIPS 2022 offiziell eröffnet.
Als eine der prestigeträchtigsten Veranstaltungen zur künstlichen Intelligenz weltweit steht NeurIPS am Ende eines jeden Jahres im Mittelpunkt der Aufmerksamkeit im Bereich Informatik. Die von NeurIPS akzeptierten Beiträge repräsentieren das höchste Niveau der aktuellen neurowissenschaftlichen und künstlichen Intelligenzforschung und spiegeln auch Veränderungen in Branchentrends wider.
Interessant ist, dass die diesjährigen „Teilnehmer“ in ihrer Forschung offenbar eine besondere Vorliebe für „Spiele“ haben.
Zum Beispiel gewann das MineDojo des Teams von Li Feifei, das auf der Minecraft-Spielumgebung basiert, den Preis für den besten Datensatz und das beste Benchmark-Papier. Durch die Offenheit des Spiels können Forscher Agenten in MineDojo durch verschiedene Arten von Aufgaben schulen und so der KI allgemeinere Fähigkeiten verleihen.
Und durch die strenge Zulassungsquote handelt es sich auch um ein weiteres Papier im Bereich Gaming, das für viele Gamer relevant sein dürfte.
Wer hat schließlich nicht King of Kings gespielt?
Paper „Arena: A Generalization Environment for Competitive Reinforcement Learning“
Adresse: https://openreview.net/pdf?id=7e6W6LEOBg3
Im Text Die Forscher schlugen eine Testumgebung basierend auf dem MOBA-Spiel „Honor of Kings“ vor. Der Zweck ist eigentlich ähnlich wie bei MineDojo – KI zu trainieren.
Seit DeepMind AlphaGo auf den Markt gebracht hat, sind Spiele als simulierte Umgebung mit hohem Freiheitsgrad und hoher Komplexität längst zu einer wichtigen Wahl für KI-Forschung und -Experimente geworden.
Im Vergleich zu Menschen, die kontinuierlich aus offenen Aufgaben lernen können, können Agenten, die in Spielen mit geringerer Komplexität geschult sind, ihre Fähigkeiten jedoch nicht über bestimmte Aufgaben hinaus verallgemeinern. Vereinfacht ausgedrückt können diese KIs nur Schach oder alte Atari-Spiele spielen.
Um eine KI zu entwickeln, die „allgemeiner“ sein kann, hat sich der Schwerpunkt der akademischen Forschung nach und nach von Brettspielen auf komplexere Spiele verlagert, darunter Spiele mit unvollständiger Information (wie Poker) und Strategiespiele (wie Poker). wie MOBA- und RTS-Spiele).
Gleichzeitig muss, wie das Team von Li Feifei in der preisgekrönten Arbeit sagte, die Trainingsumgebung genügend Aufgaben bereitstellen, damit der Agent in der Lage ist, auf mehr Aufgaben zu verallgemeinern.
DeepMind, das sich auf AlphaGo und sein Derivat AlphaZero verließ, um alle unbesiegbaren Spieler im Go-Kreis zu besiegen, erkannte dies schnell.
Im Jahr 2016 hat sich DeepMind mit Blizzard zusammengetan, um die „StarCraft II Learning Environment“ (SC2LE) auf Basis von „StarCraft II“ mit einer Weltraumkomplexität von 10 hoch 1685 auf den Markt zu bringen und Forschern Aktions- und Belohnungsspezifikationen für bereitzustellen Der Agent wird bereitgestellt, ebenso wie eine Open-Source-Python-Schnittstelle für die Kommunikation mit der Spiel-Engine.
In China gibt es auch ein „KI-Trainingsgelände“ mit hervorragenden Qualifikationen –
Als bekanntes MOBA-Spiel beträgt der Aktionszustandsraum des Spielers in „Honor of Kings“ bis zu 10 hoch 20.000, viel größer als Go und andere Spiele und sogar mehr als die Gesamtzahl der Atome im gesamten Universum (10 hoch 80).
Wie DeepMind hat sich auch das AI Lab von Tencent mit „Honor of Kings“ zusammengetan, um gemeinsam die „Honor of Kings AI Open Research Environment“ zu entwickeln, die besser für die KI-Forschung geeignet ist.
Derzeit umfasst die „Honor of Kings AI Open Research Environment“ eine 1v1-Kampfumgebung und ein Basisalgorithmusmodell und unterstützt Spiegelkampfaufgaben und Nichtspiegelkampfaufgaben für 20 Helden.
Insbesondere kann die „Glory of Kings AI Open Research Environment“ 20×20=400 Kampfunteraufgaben unterstützen, wenn nur die Auswahl der Helden beider Seiten berücksichtigt wird. Wenn man Beschwörerfähigkeiten mit einbezieht, ergeben sich 40.000 Startquests.
Damit jeder die Generalisierungsherausforderungen, die der Agent in der „Honor of Kings AI Open Research Environment“ annimmt, besser verstehen kann, können wir die beiden Tests im Papier verwenden, um dies zu überprüfen:
Erstellen Sie zunächst eine Verhaltensbaum-KI (BT), deren Einstiegsstufe „Gold“ ist. Das Gegenteil ist der Agent (RL), der durch den Reinforcement-Learning-Algorithmus trainiert wird.
Im ersten Experiment durften nur Diao Chan (RL) und Diao Chan (BT) kämpfen, und dann wurde der trainierte RL (Diao Chan) verwendet, um verschiedene Helden (BT) herauszufordern.
Die Ergebnisse nach 98 Testrunden sind in der folgenden Abbildung dargestellt:
Wenn der gegnerische Held wechselt, sinkt die Leistung der gleichen trainierten Strategie stark. Da Änderungen bei gegnerischen Helden dazu führen, dass sich die Testumgebung von der Trainingsumgebung unterscheidet, mangelt es den mit bestehenden Methoden erlernten Strategien an einer Verallgemeinerung.
Abbildung 1 Generalisierungsherausforderung zwischen Gegnern
Im zweiten Experiment durften nur Diao Chan (RL) und Diao Chan (BT) antreten, und dann wurde das trainierte RL-Modell zur Kontrolle verwendet andere Helden, die Diao Chan (BT) herausfordern.
Die Ergebnisse nach 98 Testrunden sind in der folgenden Abbildung dargestellt:
Wenn das vom Modell kontrollierte Ziel von Diao Chan zu anderen Helden wechselt, sinkt die Leistung derselben Trainingsstrategie stark. Denn durch die Änderung des Zielhelden unterscheidet sich die Bedeutung der Aktion von den Aktionen von Diao Chan in der Trainingsumgebung.
Abbildung 2 Herausforderung zur zielgruppenübergreifenden Generalisierung
Der Grund für dieses Ergebnis ist einfach. Jeder Held verfügt über seine eigenen einzigartigen Bedienfähigkeiten. Wenn Sie nicht wissen, wie man es benutzt, können Sie nur ein Auge zudrücken.
Das Gleiche gilt für menschliche Spieler, die in der Mitte „zufällig töten“ können, nachdem sie in den Dschungel gewechselt sind.
Es ist nicht schwer zu erkennen, dass dies tatsächlich auf die Frage zurückgeht, die wir am Anfang gestellt haben. Es ist schwierig, „universelle“ KI in einer einfachen Umgebung zu trainieren. MOBA-Spiele mit hoher Komplexität bieten eine geeignete Umgebung zum Testen der Verallgemeinerung des Modells.
Natürlich können Spiele nicht direkt zum Trainieren von KI verwendet werden, daher entstand ein speziell optimiertes „Trainingsgelände“.
So können Forscher ihre eigenen Modelle in Umgebungen wie „StarCraft II Learning Environment“ und „Glory of Kings AI Open Research Environment“ testen und trainieren.
Wie können inländische Forscher auf geeignete Plattformressourcen zugreifen?
Die Entwicklung von DeepMind ist untrennbar mit der starken Unterstützung von Google verbunden. Das vom Team von Li Feifei vorgeschlagene MineDojo nutzt nicht nur die Ressourcen der Spitzenuniversität Stanford, sondern erhält auch starke Unterstützung von NVIDIA.
Die derzeitige heimische Branche der künstlichen Intelligenz ist auf Infrastrukturebene immer noch nicht solide genug, insbesondere für normale Unternehmen und Universitäten, denen es an Forschungs- und Entwicklungsressourcen mangelt.
Um mehr Forschern die Teilnahme zu ermöglichen, hat Tencent am 21. November dieses Jahres offiziell die „Honor of Kings AI Open Research Environment“ für die Öffentlichkeit geöffnet.
Benutzer müssen lediglich ein Konto auf der offiziellen Website der Enlightenment Platform registrieren, Informationen übermitteln und die Plattformprüfung bestehen, um sie kostenlos herunterzuladen.
Website-Link: https://aiarena.tencent.com/aiarena/zh/open-gamecore
Es ist erwähnenswert, dass es zur besseren Unterstützung von Wissenschaftlern und Algorithmusentwicklern für die Forschung erforderlich ist Die Enlightenment-Plattform kapselt nicht nur die „Glory of Kings AI Open Research Environment“ zur Benutzerfreundlichkeit, sondern bietet auch Standardcode und Trainings-Frameworks.
Als nächstes wollen wir eine „oberflächliche“ Erfahrung damit machen, wie man ein KI-Trainingsprojekt auf der Enlightenment Platform startet!
Da wir wollen, dass die KI „Honor of Kings“ „spielt“, müssen wir als Erstes den „intelligenten Körper“ schaffen, der zur Steuerung des Helden verwendet wird.
Klingt etwas kompliziert? In der „Glory of Kings AI Open Research Environment“ ist dies jedoch eigentlich sehr einfach.
Starten Sie zunächst den Gamecore-Server:
cd gamecoregamecore-server.exe server --server-address :23432
Installieren Sie das hok_env-Paket:
git clone https://github.com/tencent-ailab/hok_env.gitcd hok_env/hok_env/pip install -e .
und führen Sie das Testskript aus:
cd hok_env/hok_env/hok/unit_test/python test_env.py
Jetzt können Sie hok.HoK importieren 1v1.load_game Um die Umgebung zu erstellen, ist Folgendes:
import hok env = HoK1v1.load_game(runtime_id=0, game_log_path="./game_log", gamecore_path="~/.hok", config_path="config.dat",config_dicts=[{"hero":"diaochan", "skill":"rage"} for _ in range(2)])
Als nächstes erhalten wir unsere erste Beobachtung vom Agenten, indem wir die Umgebung zurücksetzen:
obs, reward, done, infos = env.reset()
obs ist eine Liste von NumPy-Arrays, die die Beobachtungen des Agenten über die Umgebung beschreiben.
reward ist eine Liste von Gleitkomma-Skalaren, die die unmittelbare Belohnung beschreiben, die von der Umgebung erhalten wird.
done ist eine boolesche Liste, die den Status des Spiels beschreibt. Die Variable
infos ist ein Tupel von Wörterbüchern, deren Länge der Anzahl der Agenten entspricht.
Führen Sie dann Vorgänge in der Umgebung aus, bis die Zeit abläuft oder der Agent getötet wird.
Hier verwenden Sie einfach die env.step-Methode.
done = False while not done: action = env.get_random_action() obs, reward, done, state = env.step(action)
Wie in der „StarCraft II-Lernumgebung“ können Sie auch in der „Honor of Kings AI Open Research Environment“ Visualisierungstools verwenden, um die Wiederholung des Agenten anzuzeigen.
Zu diesem Zeitpunkt wurde Ihr erster Agent erstellt.
Als nächstes kannst du „sie/ihn“ mitnehmen, um verschiedene Trainings durchzuführen!
Apropos, es ist wahrscheinlich nicht für jeden schwer zu finden, dass die „Honor of Kings AI Open Research Environment“ nicht nur eine Umgebung bietet, in der KI trainiert werden kann, sondern durch vertraute Abläufe und umfangreiche Dokumentation Dadurch wird der gesamte Prozess einfach und leicht verständlich.
Auf diese Weise können mehr Menschen, die sich für den Einstieg in den Bereich KI interessieren, problemlos einsteigen.
Angesichts dessen bleibt tatsächlich eine Frage unbeantwortet: Warum entscheidet sich die Tencent Enlightenment Platform als von Unternehmen geführte Forschungsplattform dafür, sie in großem Maßstab zu öffnen?
Im August dieses Jahres veröffentlichten die Chengdu Artificial Intelligence Industry Ecological Alliance und der Think Tank Yuqian Consultants gemeinsam den ersten Spiel-KI-Bericht des Landes. Aus dem Bericht ist nicht schwer zu erkennen, dass Spiele einer der Schlüsselpunkte bei der Förderung der Entwicklung künstlicher Intelligenz sind. Konkret können Spiele den Einsatz von KI in dreierlei Hinsicht verbessern.
Spiele sind zunächst einmal ein hervorragendes Trainings- und Testgelände für KI.
Zweitens können Spiele unterschiedliche Fähigkeiten der KI trainieren und zu unterschiedlichen Anwendungen führen.
Zum Beispiel trainieren Schachspiele die KI, Reihenfolgeentscheidungen zu treffen und langfristige Schlussfolgerungsfähigkeiten zu erlangen; Kartenspiele trainieren die KI, sich dynamisch anzupassen und Anpassungsfähigkeit zu erlangen; und Multi-Agent-Fähigkeiten. Fähigkeit zur Zusammenarbeit und Konsistenz der Aktionen.
Darüber hinaus kann das Spiel auch Umweltbeschränkungen durchbrechen und eine intelligente Entscheidungsfindung fördern.
Spiele können beispielsweise das Echtzeit-Rendering virtueller Simulationen und die Synchronisierung virtueller Simulationsinformationen fördern und interaktive Terminals virtueller Simulationen aktualisieren.
Die Enlightenment Platform setzt auf die Vorteile von Tencent AI Lab und King of Glory in Bezug auf Algorithmen, Rechenleistung, komplexe Szenarien usw. Nach dem Öffnen kann sie eine Brücke und Verbindung für eine effektive Zusammenarbeit zwischen Spielen und KI bilden Entwicklung von Universitätsdisziplinen, Wettbewerbsorganisation und Talentförderung in der Industrie. Wenn der Talentpool ausreicht, werden wissenschaftliche Forschungsfortschritte und kommerzielle Anwendungen wie Pilze nach einem Regenfall aus dem Boden schießen.
In den letzten zwei Jahren hat die Kaiwu-Plattform viele Maßnahmen in den Bereichen Industrie, Wissenschaft und Forschung ergriffen: Sie veranstaltete den „Kaiwu Multi-Agent Reinforcement Learning Competition“, an dem eine Gruppe erstklassiger Universitätsteams, darunter TOP2 Famous, teilnahm Universitäten wie Qingbei nahmen teil; gründeten ein universitäres Wissenschafts- und Bildungskonsortium, den beliebten Wahlfachkurs „Algorithmen in Game AI“, nach der Schule besteht die Hausaufgabe darin, die Honor of Kings 1V1-Umgebung zu nutzen, um Experimente durchzuführen ...
Wenn Sie in die Zukunft blicken, können Sie erwarten: Diese Talente, die mithilfe der „Enlightenment“-Plattform global agieren, werden in verschiedene Bereiche der KI-Branche einstrahlen und die volle Blüte der Upstream- und Downstream-Ökologie der Plattform realisieren .
Das obige ist der detaillierte Inhalt vonWelchen Sinn hat es, die KI lernen zu lassen, den König zu schlagen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!