ホームページ >テクノロジー周辺機器 >AI >人間に対する勝率は 84%、DeepMind AI が西洋チェスの人間の専門家のレベルに初めて到達
DeepMind は、ゲーム AI の分野、今回は西洋チェスの分野で新たな成果を上げました。
#AI ゲームの分野では、人工知能の進歩はボード ゲームを通じて実証されることがよくあります。ボードゲームでは、人間と機械が制御された環境でどのように戦略を開発し、実行するかを測定および評価できます。何十年にもわたって、事前に計画を立てる能力は、チェス、チェッカー、将棋、囲碁などの完全情報ゲームだけでなく、ポーカーやスコットランド ヤードなどの不完全情報ゲームでも AI が成功する鍵となってきました。
Stratego は、AI 研究の次なるフロンティアの 1 つになりました。ゲームのステージと仕組みを視覚化したものを以下の 1a に示します。このゲームは 2 つの課題に直面しています。
まず、Stratego のゲーム ツリーには 10,535 の可能な状態があり、これはよく研究されている不完全情報ゲームである無制限のテキサス ホールデム (10,164 の可能な状態) や Go (10,360 の可能な状態) よりも多いです。
第二に、Stratego で特定の環境で行動するには、ゲーム開始時に各プレイヤーに対して 1066 を超える展開を推論する必要がありますが、ポーカーには可能なハンドのペアが 103 しかありません。囲碁やチェスのような完全情報ゲームにはプライベートな展開フェーズがないため、Stratego ではこの課題の複雑さを回避できます。
現状では、モデルベースのSOTA完全情報計画技術や、ゲームを独立した状況に分解する不完全情報探索技術を使用することはできません。
これらの理由から、Stratego は大規模な政策相互作用を研究するための挑戦的なベンチマークを提供します。ほとんどのボード ゲームと同様に、Stratego では、比較的ゆっくりと、思慮深く論理的な意思決定を順番に行う能力がテストされます。そして、ゲームの構造が非常に複雑であるため、AI 研究コミュニティはほとんど進歩しておらず、人工知能は人間のアマチュア プレイヤーのレベルにしか到達できません。したがって、Stratego の不完全な情報の下で最適な意思決定を行うためのエンドツーエンドの戦略を学習するエージェントを開発することは、AI 研究における主要な課題の 1 つであり、ゼロから開始することになります。
最近、DeepMind の最新論文で研究者らは、人によるデモンストレーションを行わずにモデルフリーの方法で Stratego セルフゲームを学習するエージェント DeepNash を提案しました。 DeepNask は、ゲームの最も複雑なバリエーションである Stratego Classic で、以前の SOTA AI エージェントを破り、熟練した人間のプレイヤーのレベルに達しました。
論文アドレス: https://arxiv.org/pdf/2206.15378.pdf。
DeepNash の中核は、研究者が Regularized Nash Dynamics (R-NaD) と呼ぶ、構造化されたモデルフリーの強化学習アルゴリズムです。 DeepNash は、R-NaD とディープ ニューラル ネットワーク アーキテクチャを組み合わせてナッシュ均衡に収束します。これは、インセンティブの下で競争することを学習し、それを悪用しようとする競合他社に対して堅牢であることを意味します。
以下の図 1 b は、DeepNash メソッドの高レベルの概要です。研究者らは、そのパフォーマンスを、Gravon ゲーム プラットフォーム上のさまざまな SOTA Stratego ロボットや人間のプレイヤーと体系的に比較しました。その結果、DeepNashは97%以上の勝率で現行のSOTAロボットをすべて破り、人間プレイヤーとも熾烈な競争を繰り広げ、2022年および各期間のランキングで84%の勝率でトップ3にランクインしました。
研究者らは、学習アルゴリズムに検索手法を導入することなく、AIアルゴリズムが複雑なボードゲームの人間の専門家のレベルに初めて到達できると述べた。また、AI が Stratego ゲームにおいて人間の専門家レベルに達したのは初めてです。
DeepNash は、エンドツーエンドの学習戦略を使用して Stratego を実行し、ゲームの開始時にボード上にチェスの駒を戦略的に配置します (図 1a を参照)。 -プレイフェーズ、研究者らは統合されたディープ RL とゲーム理論の手法を使用しました。エージェントは、セルフプレイを通じておおよそのナッシュ均衡を学習することを目的としています。
本研究では、探索なしの直交パスを使用し、セルフゲームにおけるモデルフリー強化学習とゲーム理論アルゴリズムのアイデア正則化ナッシュダイナミクス(RNaD)を組み合わせた新しい手法を提案します。
モデルフリーの部分は、研究が対戦相手の可能な状態を追跡するための明示的な対戦相手のモデルを確立していないことを意味します。ゲーム理論の部分は、強化学習手法に基づいて、それらがガイドするという考えに基づいています。行動を学習するエージェントはナッシュ均衡に向かって進みます。この構成的アプローチの主な利点は、パブリック状態からプライベート状態を明示的にモックする必要がないことです。さらに複雑な課題は、このモデルフリーの強化学習アプローチと R-NaD を組み合わせて、チェスのセルフプレイで人間の熟練プレイヤーと競争できるようにすることですが、これはまだ達成されていません。この組み合わせた DeepNash メソッドを上の図 1b に示します。
DeepNash で使用される R-NaD 学習アルゴリズムは、収束を達成するための正則化の考えに基づいています。R-NaD は 3 つの要素に依存します。以下の図 2b に示す重要なステップ:
DeepNash は 3 つのコンポーネントで構成されます: (1) コア トレーニング コンポーネント R-NaD ; (2) 学習戦略を微調整して、モデルが非常に可能性の低いアクションを実行する残留確率を低減する、(3) テスト時に後処理を行って、確率の低いアクションを除外し、エラーを修正する。
DeepNash のネットワークは、残留ブロックとスキップ接続を備えた U-Net バックボーン、および 4 つのヘッドというコンポーネントで構成されています。最初の DeepNash ヘッドは値関数をスカラーとして出力し、残りの 3 つのヘッドは展開およびゲームプレイ中のアクションの確率分布を出力することでエージェント ポリシーをエンコードします。この観測テンソルの構造を図 3 に示します。
DeepNash は、いくつかの既存のデータとも相互作用します。いくつかの Stratego コンピュータ プログラムが評価されています: Probe は 3 年間 (2007、2008、2010) Computer Stratego 世界選手権で優勝しました; Master of the Flag は 2009 年に優勝しました; Demon of Ignorance は Stratego のオープンソース実装です; Asmodeus、Celsius、 Celius1.1、PeternLewis、Vixen は 2012 年のオーストラリア大学プログラミング コンペティションに提出されたプログラムで、PeternLewis が優勝しました。
表 1 に示すように、DeepNash は敵対的なトレーニングを受けておらず、セルフ ゲームのみを使用していたにもかかわらず、これらすべてのエージェントに対してゲームの大部分で勝利しました。
以下の図 4a は、DeepNash で頻繁に繰り返される展開メソッドの一部を示しています。図 4b は、チェスの駒上の DeepNash (青い四角) を示しています。赤側の相手が 10、9、8、および 7 を 2 つ持っているため、中央が遅れている (7 と 8 を失っている) ものの、情報の点では進んでいる状況。図 4c の 2 番目の例は、DeepNash が相手の 6 をその 9 でキャプチャする機会を持っていることを示していますが、この動きは考慮されませんでした。おそらく DeepNash は、9 の身元を保護することが物質的な利益よりも重要であると考えていたためです。
以下の図 5a では、研究者はポジティブなブラフを実証しています。プレイヤーは駒の価値が実際よりも高いふりをします。 。 価値。 DeepNash は未知の駒スカウト (2) で相手の 8 を追いかけ、10 であると見せかけます。対戦相手はその駒が 10 である可能性があると考え、それをスパイの隣 (10 が取れる場所) に誘導します。しかし、この駒を奪取するために、相手のスパイはディープナッシュのスカウトに敗れた。
下の図 5b に示すように、2 番目のタイプのブラフはネガティブ ブラフです。これは、プレイヤーが駒の価値が実際よりも低いふりをする、アクティブなブラフの逆です。
以下の図 5c は、より複雑なブラフを示しています。ここでは、DeepNash が非公開のスカウト (2) を相手の 10 に近づけていますが、これはスパイと解釈される可能性があります。実際、この戦略により、青は数手後に 7 で赤の 5 を捕捉することができ、材料を獲得し、5 がスカウト (2) を捕捉するのを防ぎ、実際にはスパイではないことが明らかになります。
以上が人間に対する勝率は 84%、DeepMind AI が西洋チェスの人間の専門家のレベルに初めて到達の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。