ホームページ > 記事 > テクノロジー周辺機器 > AI に王を倒す方法を学習させて何になるのでしょうか?
11 月 28 日、NeurIPS 2022 が正式に開幕しました。
NeurIPS は、世界で最も権威のある人工知能イベントの 1 つとして、毎年年末にコンピューター サイエンスの分野で注目を集めています。 NeurIPS に受け入れられた論文は、現在の神経科学および人工知能研究の最高レベルを表しており、業界トレンドの変化も反映しています。
興味深いのは、今年の「出場者」が研究の中で特に「ゲーム」を好んでいるようだということです。
たとえば、Minecraft ゲーム環境をベースにした Li Feifei チームの MineDojo は、最優秀データセット賞とベンチマーク論文賞を受賞しました。ゲームのオープン性を利用して、研究者は MineDojo のさまざまなタイプのタスクを通じてエージェントをトレーニングすることができ、それによって AI により一般的な機能を与えることができます。
そして、厳格な入場率により、同様にゲーム分野に含まれる別の論文も多くのゲーマーに関連する可能性があります。
結局のところ、キング オブ キングスをプレイしたことがない人はいないでしょうか?
論文「アリーナ: 競争強化学習のための一般化環境」
アドレス: https://openreview.net/pdf?id=7e6W6LEOBg3
研究者らは記事の中で、MOBA に基づいたゲームを提案しました。ゲーム「キング・オブ・キングス「グローリー」」のテスト環境。目的は実際には MineDojo と似ており、AI をトレーニングすることです。
DeepMind が AlphaGo を発表して以来、高度な自由度と高度な複雑性を備えたシミュレート環境としてのゲームは、長い間、AI の研究と実験にとって重要な選択肢となってきました。
ただし、無制限のタスクから継続的に学習できる人間と比較して、複雑さの低いゲームで訓練されたエージェントは、その能力を特定のタスクに一般化することができません。簡単に言えば、これらの AI はチェスをプレイするか、古代の Atari ゲームをプレイすることしかできません。
より「汎用」できる AI を開発するために、学術研究の焦点はボードゲームから、非完全情報ゲームを含むより複雑なゲームへと徐々に移行しています。 (ポーカーなど) および戦略ゲーム (MOBA や RTS ゲームなど)。
同時に、リー・フェイフェイのチームが受賞論文で述べているように、エージェントがより多くのタスクに汎用化できるようにするには、トレーニング環境が十分な機能を提供する必要があります。タスク 。
DeepMind は、AlphaGo とその派生バージョン AlphaZero を利用して、囲碁界の無敵のプレイヤー全員を破りましたが、すぐにこのことに気づきました。
#2016 年、DeepMind は Blizzard と提携して、空間複雑度 10 の 1685 乗の「StarCraft II」をベースにした「StarCraft II 学習環境」を立ち上げました。 SC2LE) は、エージェントのアクションと報酬の仕様、およびゲーム エンジンと通信するためのオープンソース Python インターフェイスを研究者に提供します。
中国にも優れた資格を備えた「AI訓練場」がある——
有名な MOBA ゲームでは、「Honor of Kings」におけるプレイヤーのアクション状態空間は 10 の 20,000 乗にも及び、囲碁や他のゲームよりもはるかに大きく、ゲーム内の原子の総数をも超えています。宇宙全体(10の80乗)。
DeepMind と同様に、テンセントの AI ラボも「Honor of Kings」と提携し、AI 研究により適した「Honor of Kings AI オープン研究環境」を共同開発しました。
現在、「Glory of Kings AI オープン研究環境」には、1v1 の戦闘環境とベースライン アルゴリズム モデルが含まれており、20 人のミラー戦闘タスクをサポートしています。ヒーロー、および非ミラーバトルミッション。
具体的には、「Glory of Kings AI オープン研究環境」は、双方のヒーローの選択だけを考慮した場合、20×20=400 の戦闘サブタスクをサポートできます。召喚士のスキルも含めるとシードクエストは40,000個にもなります。
「Glory of Kings AI オープンリサーチ環境」でエージェントが受け入れる一般化の課題を誰もがよりよく理解できるように、論文内の 2 つのテストを使用して検証できます。
まず、レベルが入門レベルの「ゴールド」のビヘイビアツリー AI (BT) を作成します。反対は、強化学習アルゴリズムによって訓練されたエージェント (RL) です。
最初の実験では、貂蝉 (RL) と貂蝉 (BT) のみが戦うことを許可され、その後、訓練された RL (貂蝉) がさまざまなヒーローに挑戦するために使用されました ( BT)。
98 ラウンドのテスト後の結果を次の図に示します。
対戦相手のヒーローが変わると、同じトレーニングのパフォーマンスが変化します。戦略は急激に低下します。対戦相手のヒーローが変わるとテスト環境とトレーニング環境が異なるため、既存の方法で学習した戦略は汎用性に欠けます。
#図 1 対戦相手を超えた一般化の課題
2 番目のこの内容実験では、貂蝉(RL)と貂蝉(BT)のみが戦うことを許可され、その後、訓練されたRLモデルを使用して他のヒーローを制御し、貂蝉(BT)に挑戦しました。
98 回のテストの結果は次のとおりです。
モデルが操作するターゲットが貂蝉から他のヒーローに変更された場合、同じ トレーニング戦略のパフォーマンスが急激に低下します。対象となるヒーローが変わると、その行動の意味が訓練環境での貂蝉の行動とは異なってくるからである。
#図 2 クロスターゲット汎化チャレンジ
この結果の原因理由は非常に単純で、ヒーローにはそれぞれ独自の操作スキルがあり、訓練を受けたばかりのエージェントは新しいヒーローを手に入れても使い方が分からず、見て見ぬふりをするしかないからです。人間のプレイヤーも同様で、中盤で「ランダムにキル」できるプレイヤーは、ジャングルに変更すると良い KDA を達成できない可能性があります。
これが実際に最初に提起した問題に戻ることは、難しくありません。単純な環境で「汎用」AI をトレーニングするのは困難です。複雑性の高い MOBA ゲームは、モデルの一般化をテストするのに便利な環境を提供するだけです。
もちろん、ゲームを直接 AI の訓練に使用することはできないため、特別に最適化された「訓練場」が登場しました。
したがって、研究者は、「StarCraft II 学習環境」や「Glory of Kings AI オープン研究環境」などの環境で独自のモデルをテストおよびトレーニングできます。
国内の研究者は適切なプラットフォーム リソースにどのようにアクセスしますか?
DeepMind の開発は、Google の強力なサポートと切り離すことができません。 Li Feifei 氏のチームが提案する MineDojo は、トップ大学であるスタンフォード大学のリソースを活用しているだけでなく、NVIDIA からの強力なサポートも受けています。
現在の国内の人工知能産業は、特に研究開発リソースの不足に直面している一般企業や大学にとって、インフラストラクチャレベルでまだ十分に強固ではありません。
テンセントは、より多くの研究者が参加できるように、今年11月21日に「Honor of Kings AIオープン研究環境」を正式に一般公開しました。
ユーザーは、Enlightenment Platform の公式 Web サイトでアカウントを登録し、情報を送信し、プラットフォームのレビューに合格するだけで、無料でダウンロードできます。
ウェブサイトのリンク: https://aiarena.tencent.com/aiarena/zh/open-gamecore
学者やアルゴリズム開発者の研究をより適切にサポートするために、Enlightenment プラットフォームは「Honor of Kings AI オープン研究環境」をカプセル化して使いやすくするだけでなく、標準コードとトレーニング フレームワーク。
次に、Enlightenment Platform で AI トレーニング プロジェクトを開始する方法について「浅い」体験をしてみましょう。
AI に「Honor of Kings」を「プレイ」してもらいたいので、最初にしなければならないことは、主人公を制御するために使用される「インテリジェント エージェント」を作成することです。
少し複雑に思えますか?しかし、「Glory of Kings AIオープン研究環境」では、これが実は非常にシンプルなのです。
まず、gamecore サーバーを起動します:
cd gamecoregamecore-server.exe server --server-address :23432
hok_env パッケージをインストールします:
git clone https://github.com/tencent-ailab/hok_env.gitcd hok_env/hok_env/pip install -e .
そして、テスト スクリプトを実行します:
cd hok_env/hok_env/hok/unit_test/python test_env.py
これで、hok をインポートし、hok.HoK1v1.load_game を呼び出して環境を作成できます:
import hok env = HoK1v1.load_game(runtime_id=0, game_log_path="./game_log", gamecore_path="~/.hok", config_path="config.dat",config_dicts=[{"hero":"diaochan", "skill":"rage"} for _ in range(2)])
以下, 環境をリセットすることで、エージェントから最初の観測結果を取得します。
obs, reward, done, infos = env.reset()
obs は、環境観測に対するエージェントの応答を記述する NumPy 配列のリストです。
reward は、環境から受け取る即時報酬を記述する浮動小数点スカラーのリストです。
done は、ゲームの状態を説明するブール値のリストです。
infos変数は、長さがエージェントの数である辞書のタプルです。
その後、時間がなくなるかエージェントが強制終了されるまで、環境内で操作を実行します。
ここでは、env.step メソッドを使用するだけです。
done = False while not done: action = env.get_random_action() obs, reward, done, state = env.step(action)
「StarCraft II 学習環境」と同様に、視覚化ツールを使用して「Glory of Kings AI オープン 研究環境」でエージェントのリプレイを表示することもできます。
この時点で、最初のエージェントが作成されました。
次に、「彼女」をドラッグしてさまざまなトレーニングを実行できます。
# そう言えば、「Glory of Kings AI オープン研究環境」が単なる研究環境ではないことは、誰もが理解するのに難しくないでしょう。トレーニング環境 AI 環境により、使い慣れた操作と豊富なドキュメントを通じてプロセス全体がシンプルかつ理解しやすくなります。
これにより、AI分野への参入に興味のあるより多くの人が気軽に始められるようになります。
これを見ると、実はまだ答えられていない疑問があります。企業主導の研究プラットフォームとして、なぜテンセント啓蒙プラットフォームは大規模に公開することを選んだのでしょうか?
今年 8 月、成都人工知能産業生態同盟とシンクタンク Yuqian Consultants が共同で国内初のゲーム AI レポートを発表しました。この報告書から、ゲームが人工知能の開発を促進するための重要なポイントの 1 つであることがわかります。具体的には、ゲームは 3 つの側面で AI の応用を向上させることができます。
第一に、このゲームは AI の優れたトレーニングおよびテストの場です。
第二に、ゲームは AI のさまざまな能力を訓練し、さまざまなアプリケーションにつながる可能性があります。
たとえば、チェス ゲームは AI をトレーニングして順序を決定し、長期的な推論能力を獲得します。カード ゲームは AI をトレーニングして動的に適応し、適応性を獲得します。リアルタイム ストラテジー ゲームは AI をトレーニングして、マシンのメモリ機能、長期計画機能、マルチエージェントのコラボレーション機能、およびアクションの一貫性。
さらに、このゲームは環境上の制約を打ち破り、賢明な意思決定を促進することもできます。
たとえば、ゲームでは、仮想シミュレーションのリアルタイム レンダリングと仮想シミュレーション情報の同期を促進し、仮想シミュレーション インタラクティブ端末をアップグレードできます。
啓発プラットフォームは、アルゴリズム、コンピューティング能力、複雑なシナリオなどの点で Tencent AI Lab と King of Glory の利点を活用しています。それが開かれれば、ゲームと AI 開発の間に効果的な協力の橋を築き、大学の学問分野の構築、競争組織、業界の人材育成を結び付けることができます。人材プールが十分であれば、雨後の筍のように科学研究の進歩や商業応用が生まれます。
過去 2 年間、Kaiwu プラットフォームは産学、研究の分野で多くのレイアウト対策を講じてきました。「Kaiwu マルチエージェント強化学習コンペティション」を開催しました。青北を含むTOP2人材が集結 名門大学を含むトップチームが参加し、大学科学教育コンソーシアムを結成 北京大学情報科学部が人気選択科目「ゲームAIのアルゴリズム」開講放課後の宿題は、Honor of Kings 1V1 環境で実験を行うことでした...
将来を楽しみにしています。 「Enlightenment」プラットフォームはAI業界のさまざまな分野に広がり、プラットフォームの上流と下流の生態系の満開を実現します。
以上がAI に王を倒す方法を学習させて何になるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。