マシンが先を考えるとき：戦略的AIの台頭-AI-php.cn

ホームページ

テクノロジー周辺機器

マシンが先を考えるとき：戦略的AIの台頭

王林

Feb 26, 2025 am 03:06 AM

戦略的ai

progue

11。 1997年5月、ニューヨーク市

ニューヨーク市の美しい春の日でした。空は晴れていて、気温は摂氏20度に向かって上昇していました。ヤンキースはヤンキースタジアムでカンザスシティロイヤルズを演じる準備をし、レンジャーズはマディソンスクエアガーデンの悪魔と対戦していました。

普通のものは何も見えませんでしたが、マンハッタンのミッドタウンにある公平なセンターに集まっている人々は、本当にユニークな何かを体験しようとしていました。彼らは、コンピューターが初めて標準的なトーナメント条件下でチェスで現実の世界チャンピオンを破ったときに、歴史的なイベントを目撃しようとしていました。

人間を代表するのは、当時世界のトップチェス選手として広く認識されていたゲイリー・カスパロフでした。マシンを表す深い青 - IBMが開発したチェスコンピューター。試合の最終ゲームと6回目のゲームに入ると、両方のプレーヤーは2.5ポイントでした。勝者が決定されることになったのは今日でした。

ゲイリーは黒として始まりましたが、早期エラーを犯し、ディープブルーからの強力で攻撃的な攻撃に直面しました。わずか19の動きの後、それはすべて終わりました。カスパロフは、士気を失い、圧力を受けていると感じており、辞任し、彼の立場は受け入れられないと信じていました。象徴的であり、多くの人によって、人間と機械の間で最も重要な瞬間の1つとして歓迎されていました。この画期的なイベントは、AI開発のターニングポイントをマークし、戦略的AIの可能性と課題を強調しています。

はじめに

生成AIの最近の進歩と、大規模な言語モデルでの私自身の実験とその戦略的能力に触発された私は、ますます戦略的AIについて考えてきました。過去にこのトピックにどのようにアプローチしようとしましたか？より一般主義的な戦略的AIエージェントがいる前に、何が解決すべきか、何が解決する必要がありますか？

データサイエンティストとして、私たちはクライアントと雇用主のためにAIソリューションをますます実装しています。社会全体にとって、AIとの増え続ける相互作用により、AI、特に戦略的AIの発展を理解することが重要になります。戦略的な文脈でうまく操縦する能力を持つ自律エージェントがいると、これは誰にとっても深い意味を持つでしょう。

しかし、

戦略的ai

と言うとき、私たちは正確に何を意味しますか？その中心にある戦略的AIは、潜在的な行動を考慮するだけでなく、他者の反応を予測し、影響を与える決定を下す機械を伴います。複雑で不確実な環境で予想される結果を最大化することですこの記事では、戦略的AIを定義し、1997年にIBMのディープブルービートKasparov以来の長年にわたってどのように発展したかを調べます。さらに、言語モデル（LLM）がどのように適合するかを写真に調べます。これらの傾向と開発を理解することにより、私たちは自律的なAIエージェントが社会に統合されている世界に向けてより良い準備をすることができます。

戦略的AI

の定義

戦略的AIに関するより深い議論は、トピックのよく形成された定義から始まります。マシンが先を考えるとき：戦略的AIの台頭

商業環境で戦略を検討するとき、私たちはしばしば、長期的な思考、リソースの割り当てと最適化、組織内の相互依存の全体的な理解、意思決定の目的とミッションの整合などのトピックに関連付ける傾向があります。会社など。これらのトピックは検討するのに役立ちますが、AIおよび自律エージェントを扱う際に戦略のよりゲームの理論的定義を好むことがよくあります。この場合、戦略的であることを次のように定義します

あなた自身の潜在的な行動だけでなく、他の人がそれらの行動にどのように対応するか、そしてあなたの決定が環境の全体的なダイナミクスにどのように影響するかを考慮することにより、予想されるペイオフを最大化する一連の行動を選択する。 >

この定義の重要な部分は、戦略的選択は、人間、組織、または他のAIであろうと、真空ではなく、他の参加者のコンテキストで発生する選択肢であるということです。これらの他のエンティティは、独自の同様の目標または矛盾する目標を持つことができ、自分の利益を促進するために戦略的に行動しようとすることもできます。また、戦略的な選択は、これらのペイオフがお金、有用性、またはその他の価値の尺度の観点からであるかどうかにかかわらず、常に予想されるペイオフを最大化しようとする

を求めています。戦略に関連するより伝統的な「商業的な」トピックを組み込みたい場合は、10年後の企業の価値を最大化したいと想像できます。この場合、優れた戦略を策定するには、「長期的な」見解を取る必要があり、戦略との整合を確保するために、会社の「目的と使命」も考慮する必要があります。しかし、これらの努力を追求することは、戦略的に行動することが実際に何を意味するかの結果にすぎません。

戦略のゲーム理論的見解は、戦略的意思決定の本質を捉えているため、戦略的AIの意味を明確に定義できます。定義から、AIシステムまたはエージェントが戦略的に行動する場合、いくつかのコア機能が必要であることがわかります。具体的には、次のことができる必要があります

モデルその他のエージェント（予測技術または確率論的推論を使用してください。これらのエージェントは人間、AIS、または組織からのものです）。

予想されるユーティリティに基づいてアクションを最適化します他のエージェントの戦略に関する新しい情報を収集するときに、動的に順応的に順応します。

現在、これらのアクションのすべてが現実の世界で自律的な方法で有名な、またはよく公開されているシステムはありません。ただし、AIシステムの最近の進歩と、変化しようとしている可能性のあるLLMSの急速な上昇を考えると！ ゲーム理論の他の重要な概念

戦略的AIについてさらに議論する前に、ゲーム理論からいくつかの概念とアイデアを確認することが役立つかもしれません。戦略的AIを中心に行われた多くの作業には、ゲーム理論的概念の基盤があり、ゲーム理論から定理を使用すると、ゲームや状況が他のゲームよりも対処しやすくなる特定のプロパティの存在を示すことができます。また、現実世界の状況に関しては、ゲーム理論の欠点のいくつかを強調し、インスピレーションを求めて他の方向を見る方が良いかもしれません。
ゲームとは？

ゲームを3つの重要なコンポーネントで構成される数学モデルとして定義します。

プレイヤー
：決定を下す個人またはエンティティ。

戦略
：各プレイヤーが採用できる可能性のあるアクションまたはプラン。

ペイオフ：選択した戦略に基づいて各プレイヤーが受け取る報酬または結果。
この正式な構造は、戦略的相互作用と意思決定プロセスの体系的な研究を可能にします。
有限vs Infinite Games ゲームで話すとき、有限のゲームと無限のゲームの区別を見ることも理にかなっています。
有限ゲームには、プレーヤーの固定セット、定義されたルール、および明確なエンドポイントがあります。目的は勝つことであり、例にはチェス、ゴー、チェッカー、および最も伝統的なボードゲームが含まれます。一方、
無限のゲームには所定のエンドポイントがなく、ルールは時間とともに進化する可能性があります。目的は、勝つことではなく、プレイを続けることです。ビジネス競争や社会の進化などの現実世界のシナリオは、無限のゲームと見なすことができます。冷戦は、無限のゲームの例として見ることができます。それは、米国とその同盟国（西）とソビエト連邦とその同盟国（東）の間の長期にわたる地政学的な闘争でした。紛争には固定エンドポイントがなく、戦略と「ルール」は時間とともに進化しました。 subgames
より大きなゲームのコンテキスト内で小さなゲームを見つけることができる場合があります。数学的には、サブゲームはそれ自体が自己完結型のゲームであり、いくつかの異なる基準を満たす必要があります：

サブゲームは、プレイヤーがゲームのどこにいるかを正確に知っている時点から始まります。
それには、その時点から続く可能性のあるすべてのアクションと結果が含まれています。

これらの行動に関連するすべてのプレイヤーの知識と不確実性を網羅しています。

ゲーム全体を表す大きな木を想像する場合、サブゲームを視覚化できます。サブゲームは、特定のポイント（ノード）から始まるこのツリーのブランチを選択し、そこから伸びるすべてのものを含め、不確実性がこのブランチ内で完全に表されるようにするようなものです。
サブゲームの背後にあるコアアイデアは、戦略的AIに関する議論に役立ちます。その理由は、主にプレイヤー間の無限のゲームの一部が非常に複雑でモデル化するのが難しいかもしれないが、そのゲーム内の小さなゲームを見ることを選択した場合、ゲームの理論分析をより多くの成功を収めることができるからです。
無限のゲームとして冷戦で私たちの例に戻ると、そのコンテキスト内でいくつかのサブゲームを認識できます。いくつかの例は次のとおりです

キューバのミサイル危機（1962）：

プレイヤー：米国とソビエト連邦。

戦略：米国は外交交渉から軍事侵略に至るまでの選択肢を考慮しましたが、ソビエト連邦はミサイルを削除するか、対立をエスカレートするかを決定しなければなりませんでした。
ペイオフ
：核戦争を回避し、グローバルなイメージを維持し、戦略的な軍事的ポジショニング。
ベルリンの封鎖と空輸（1948–1949）：

プレイヤー
：西部の同盟国とソビエト連邦。
戦略
：ソビエトはベルリンをブロックして同盟国を押し出しましたが、同盟国は都市を放棄するか、空気を介して供給するかを決定しなければなりませんでした。
ペイオフ：ベルリンを管理し、政治的解決を実証し、ヨーロッパの整合性に影響を与えます。

もちろん非常に困難で複雑ですが、両方の「サブゲーム」は、冷戦全体よりも応答を分析して開発するのが簡単です。彼らには、限られた戦略と見返りのセットと、より明確な時間枠を備えた定義されたプレイヤーのセットがありました。これにより、ゲームの理論分析にはどちらも適用可能になりました。戦略的AIのコンテキストでは、これらのサブゲームを分析することは、複雑で動的な環境で最適な決定を下すことができるインテリジェントシステムを開発するために重要です。 2つのプレーヤーゲーム

2つのプレーヤーゲームは、2人のプレーヤー間のゲームです。これは、たとえば、2人のチェスプレイヤーの間のゲームであるか、冷戦の例である西vs東部に戻ってくる可能性があります。ゲームに2人のプレイヤーしかいないことは分析を簡素化しますが、それでも重要な競争力のあるダイナミクスまたは協力的なダイナミクスを捉えています。ゲーム理論の結果の多くは、2つのプレイヤーゲームに基づいています。
ゼロサムゲーム

ゼロサムゲームは、あるプレイヤーのゲインが別のプレイヤーの損失であるゲームのサブセットです。合計の見返りは一定のままであり、プレーヤーは直接競争しています。

nash均衡と最適なアクション

a Nash equilibrium（ne）は、他のプレイヤーが自分の戦略を一方的に変更することで追加の利益を得ることができない戦略のセットであり、他のプレイヤーが変わらないと仮定します。この状態では、各プレイヤーの戦略は他のプレイヤーの戦略に対する最良の対応であり、プレイヤーが逸脱するインセンティブがない安定した結果につながります。たとえば、
ゲームロックペーパーシッサー（RPS）では、NEはすべてのプレイヤーがそれぞれが同等の確率でロック、紙、ハサミをランダムにプレイする状態です。プレイヤーとしてNE戦略をプレイすることを選択した場合、他のプレイヤーがプレイを悪用できず、2人のプレーヤーのゼロサムゲームでは、期待されても失われることはありません。均一に壊れています。
ただし、特に相手が予想外の最適な方法でプレイしている場合、NE戦略をプレイすることは常に最適な戦略であるとは限りません。 AとBの2人のプレイヤーとBのシナリオを考えてみましょう。プレイヤーBが紙の演奏をもっと始めた場合、プレイヤーAはこれを認識し、ハサミを演奏する頻度を増やすことができます。ただし、Aからのこの逸脱は再びBによって悪用される可能性があります。戦略的ai
に関する重要な持ち帰り
ゲーム理論的概念をレビューすると、サブゲームのアイデアは戦略的AIにとって特に役立つように思われます。より小さく、より大きなコンテキスト内でゲームを分析しやすくできることを見つける機能により、すでにソリューションやソルバーを既に既に適用しやすくなります。たとえば、
キャリアの発展に取り組んでいるとしましょう。これは、無限のゲームとして分類され、「解決する」のが難しいものですが、突然新しい契約を交渉する機会が得られます。この交渉プロセスは、あなたのキャリアの中でサブゲームの機会を提供し、ゲーム理論的概念を使用する戦略的AIにとってはるかに親しみやすいでしょう。
確かに、人間は何千年もの間私たちの生活の中でサブゲームを作成してきました。約1500年前にインドで、現在チェスとして知られているものの起源を作成しました。チェスはAIが打ち負かすのは非常に挑戦であることが判明しましたが、さらに複雑で困難な戦略的状況に使用できるより成熟したツールとテクニックの開発を開始することもできました。
ゲームの戦略的AIの短い歴史ゲームは、戦略的AIを開発するための驚くべき証明基盤を提供しました。ゲームの閉じた性質により、オープンエンドのシステムよりもモデルをトレーニングし、ソリューション技術を開発しやすくなります。ゲームは明確に定義されています。プレイヤーは知られており、見返りも知られています。最大かつ初期のマイルストーンの1つは、チェスで世界チャンピオンを倒すマシンである深い青色でした。

初期マイルストーン
：深い青ディープブルーは、1990年代にIBMが開発したチェスプレイスーパーコンピューターでした。プロローグで述べたように、それは1997年5月に6ゲームの試合で現チャリーのチャンピオンであるギャリー・カスパロフを破って歴史を作りました。ディープブルーは、1秒あたり2億件のチェスポジションを評価できる特殊なハードウェアとアルゴリズムを利用しました。ブルートフォース検索技術とヒューリスティック評価関数を組み合わせて、以前のシステムよりも潜在的な移動シーケンスをより深く検索できるようにしました。ディープブルーの特別なものを作ったのは、膨大な数の位置を迅速に処理し、チェスの組み合わせの複雑さを効果的に処理し、人工知能の重要なマイルストーンをマークする能力でした。
しかし、ゲイリー・カスパロフがレックス・フリッドマン¹とのインタビューで指摘しているように、ディープブルーは他の何よりもブルートフォースマシンでした。検索のコアは、基本的に単なる試行錯誤です。そして、エラーについて言えば、それは人間よりも大幅にエラーが大幅に少なくなり、カスパロフによると、これは打ち負かすのが難しい機能の1つです。
複雑なゲームでの進歩
：alphago
GoogleのDeepmindのチームがChessのDeep Blueの勝利から19年後の19年後、AIの歴史の特別な瞬間に貢献する別のモデルを生み出しました。 2016年、Alphagoは世界チャンピオンのGoプレーヤーであるLee Sedolを倒した最初のAIモデルになりました。
Goは、アジアの起源を持つ非常に古いボードゲームであり、その深い複雑さと膨大な数の可能性のあるポジションで知られており、チェスのものをはるかに超えています。 Alphagoは、深いニューラルネットワークとモンテカルロツリー検索を組み合わせて、位置を評価し、計画を効果的に評価できるようにしました。推論でアルファゴが与えられた時間が多いほど、パフォーマンスが向上します。 AIは、人間の専門家ゲームのデータセットで訓練され、自己プレイを通じてさらに改善されました。 Alphagoを特別なものにしたのは、Goの複雑さを処理する能力であり、高度な機械学習技術を利用して、以前はAIマスタリーに耐性があると考えられていたドメインで超人的なパフォーマンスを実現しました。
ボード状態を深く評価して動きを選択する特別な能力を考えると、アルファゴはディープブルーよりも多くの知性を示すと主張することができます。 Lee Sedolとの2016年のゲームから37を移動することは、典型的な例です。ゴーに精通している人にとって、それは5行目で肩のヒットであり、当初はリー・セドル自身を含むコメンテーターを困惑させました。しかし、後で明らかになるように、この動きは素晴らしい遊びであり、アルファゴが人間のプレイヤーが見落とし、無視する戦略をどのように探求するかを紹介しました。チェスとゴーの組み合わせ：alphazero
1年後、Google Deepmindは再び見出しを作りました。今回、彼らはアルファゴから多くの学習を取り、アルファゼロを作成しました。これは、チェスを習得した汎用AIシステムであり、ゴーと将軍を習得しました。研究者は、以前の人間の知識やデータなしで自己プレイと強化学習を通じてAIを構築することができました。手作りの評価機能や広範なオープニングライブラリに依存する従来のチェスエンジンとは異なり、Alphazeroは深いニューラルネットワークと、モンテカルロツリー検索と自己学習を組み合わせた新しいアルゴリズムを使用しました。
システムは、基本的なルールのみで始まり、何百万ものゲームを自分自身に対してプレイすることで最適な戦略を学びました。 Alphazeroを特別なものにしたのは、創造的で効率的な戦略を発見する能力であり、AIの新しいパラダイムを紹介し、人間の工学的知識よりも自己学習を活用しています。
速度と戦略の統合：Star Craft II
Google Deepmindチームは、AIスペースでの支配を継続して、非常に人気のあるコンピューターゲームStarcraft IIに焦点を変更しました。 2019年、彼らはAlphastar²と呼ばれるAIを開発しました。これは、グランドマスターレベルのプレイを達成し、競争力のあるリーダーボードで人間のプレイヤーの99.8％を超えることができました。
Starcraft IIは、DeepMindのチームにいくつかの新しい課題を提供するリアルタイム戦略ゲームです。ゲームの目標は、リソースを集め、建物を建設し、相手を倒すことができる軍隊を集めることにより、相手プレーヤーまたはプレイヤーを征服することです。このゲームの主な課題は、考慮する必要がある巨大なアクションスペース、リアルタイムの意思決定、戦争の霧による部分的な観察性、および長期戦略的計画の必要性から生じます。

自己プレイやディープニューラルネットワークを通じて強化学習など、以前のAIのために開発されたいくつかのテクニックに基づいて構築することにより、チームはユニークなゲームエンジンを作成することができました。第一に、彼らは監督された学習と人間の遊びを使用してニューラルネットを訓練しました。次に、それを使用して、マルチエージェントゲームフレームワークで自分自身に対抗できる別のアルゴリズムをシードしました。 Deepmindチームは、エージェントが互いに戦略を探求し、支配的な戦略が報われることができる仮想リーグを作成しました。最終的に、彼らはリーグの戦略を、多くの異なる敵と戦略に対して効果的になる可能性のあるスーパー戦略に組み合わせました。彼ら自身の言葉で³：

最終的なアルファスターエージェントは、リーグのナッシュ分布のコンポーネント、つまり、発見された戦略の最も効果的な混合物 - 単一のデスクトップGPUで実行される最も効果的な混合物で構成されています。 >
プルリブスとポーカーに深く潜ります
私はポーカーをするのが大好きで、トロンハイムに住んで勉強していたとき、私たちはかなり激しくなる可能性のある毎週のキャッシュゲームを持っていました！戦略的なAIによって覆われた最後のマイルストーンの1つは、ポーカーのゲームにありました。具体的には、最も人気のある形式のポーカーの1つである6プレーヤーの無限テキサスホールデム。このゲームでは、52枚のカードを備えた通常のカードのデッキを使用します。プレイは次の構造に従います。

preflop：
すべてのプレイヤーには2枚のカード（ホールカード）が与えられます。
フロップ：3枚のカードが描画され、すべてのプレイヤーがそれらを見ることができるように横面して横たわっています。

ターン：別のカードが描画され、表面が横たわっています。

The River：ファイナル5枚目のカードが描かれ、表面が横たわっています。
プレイヤーは、テーブルのカードと手の2枚のカードを使用して、5カードのポーカーハンドを組み立てることができます。ゲームの各ラウンドについて、プレイヤーは順番に賭けをし、1人のプレイヤーが他の誰も電話しないことを賭けた場合、ゲームはラウンドのいずれかで終了できます。
学習は合理的に簡単ですが、さまざまなポーカーハンドの階層を知る必要がありますが、このゲームは数十年にわたって継続的な努力にもかかわらず、AIで解決することが非常に困難であることが判明しました。
ポーカーの解決の難しさに貢献する複数の要因があります。第一に、他のプレイヤーが持っているカードがわからないため、隠された情報の問題があります。第二に、多くのプレーヤーとのマルチプレイヤーセットアップがあり、各プレイヤーが可能な相互作用と戦略の数を指数関数的に増やします。第三に、1人のプレイヤーが突然スタック全体を賭けることができる複雑な賭け構造を可能にする制限なしの賭けルールがあります。第4に、ホールカード、コミュニティカード、賭けシーケンスの組み合わせにより、膨大なゲームツリーの複雑さがあります。さらに、カードの確率的性質、ブラフの可能性、相手のモデリングのために複雑になっています！

ノーム・ブラウンとトゥオマス・サンドホルムの数人の研究者が最終的にコードをクラックしたのは2019年になって初めてでした。 Scienceに掲載された論文では、6プレイヤーの無限テキサスHold'emで世界で最高のプレイヤーを倒すことができた新しいポーカーAI-Pluribusを説明しています。ポーカーハンド、および両方の実験は、プルリブスの支配を明確に示した。

最初の実験では、Pluribusは5人の人間の対戦相手と対戦し、25 MBB/ゲームの標準偏差で平均勝利率48 MBB/ゲームを達成しました。（MBB/ゲームはゲームごとにMilli Big Blindの略で、プレイする1000ゲームごとに勝つビッグブラインドの数。）48 MBB/ゲームは、特にエリートポーカープレーヤーの間で非常に高い勝利率と考えられており、プリブスがより強いことを意味します。人間の敵。

2番目の実験では、研究者は1人の人間に対して5つのバージョンのプリブスプレイを持っていました。彼らは、2人の異なる人間がそれぞれ5つのマシンに対して5000の携帯を演奏するように、実験をセットアップしました。プルリブスは、15 MBB/ゲームの標準誤差で平均32 MBB/ゲームで人間を打ち負かすことになり、再び戦略的優位性を示しました。
プルリブスの優位性は、特に研究者が克服しなければならなかったすべての複雑さを考えると、非常に驚くべきものです。ブラウンとサンドホルムは、プルリブスが以前のトップポーカーAISよりも超人的かつ計算的にはるかに効率的になるのに役立ついくつかのスマートな戦略を思いつきました。それらのテクニックには次のものが含まれます

動きを評価するための2つの異なるアルゴリズムの使用。彼らは最初に、モンテカルロ反事実的後悔の最小化と呼ばれる方法を使用して、プログラムを自分自身に対してプレイすることによって作成されたいわゆる「青写真戦略」を使用します。この青写真戦略は、賭けの第1ラウンドで使用されますが、その後の賭けのラウンドでは、プリブスはより良いより詳細な戦略を見つけるためにリアルタイム検索を実施します。
リアルタイムの検索アルゴリズムをより計算効率の高いものにするために、制限部の検索を使用して、相手がプレイすることを選択する可能性のある4つの異なる戦略を評価します。第一に、彼らは2回前の2回の動きについて各戦略を評価します。さらに、オリジナルの青写真戦略、折り畳みに偏った青写真戦略、呼び出しに偏った青写真戦略、育成に偏った最終的な青写真戦略など、相手の4つの異なる戦略のみを評価します。
彼らはまた、可能なゲーム状態の数を減らすためにさまざまな抽象化手法を使用しました。たとえば、9の高いストレートは基本的に8の高いストレートに似ているため、これらは同様の方法で表示できます。
Pluribusは、連続的な賭けスペースを限られたバケツのセットに離散化し、さまざまな賭けサイズを簡単に検討および評価できるようにします。さらに、プルリブスは、あらゆる手でプレイしているように戦略をバランスさせます。また、その状況で持っている他の可能性のある手を考え、それがそれらの手をどのように再生するかを評価し、最終的なプレーがバランスが取れているため、対抗するのが難しい

Pluribusから描くべき興味深い観察はかなりありますが、おそらく最も興味深いのは、異なる対戦相手とのプレーを変えることはないが、代わりに多種多様なプレーヤーに対して効果的な堅牢な戦略を開発したことです。多くのポーカープレーヤーは、さまざまな状況や人々に自分のプレイを調整しなければならないと考えているため、プルリブスは、これが必要ではなく、おそらく最適でさえないことを示しています。
ゲーム理論への短い進出では、2プレイヤーのゼロサムゲームでNE戦略をプレイすると、期待で失わないことが保証されていることに注意しました。ただし、6プレイヤーポーカーのようなマルチプレイヤーゲームの場合、そのような保証はありません。ノーム・ブラウンは、おそらくそれがポーカーのようなゲームの敵対的な性質であり、NE戦略でそれにアプローチしようとするのをまだ適していると推測しています。逆に、プレイヤーがさらに協力できるリスクのようなゲームでは、NE戦略を追求することは仕事が保証されていません。なぜなら、6人とリスクゲームをプレイしている場合、5人の対戦相手がギャングアップすることに決めた場合、できることは何もないからです。あなたにあなたを殺します。

戦略的ai
の傾向を評価します
ゲームの戦略的AIの歴史を要約すると、明確な傾向が明らかになります。ゲームはゆっくりと、しかし確実に、人間が日常的に自分自身を見つける現実世界の戦略的状況に近づいています。
まず、2プレイヤーからマルチプレイヤー設定に移行しています。これは、2プレイヤーゲームでの最初の成功から、6プレイヤーポーカーのようなマルチプレイヤーゲームまで見ることができます。第二に、隠された情報でゲームの習得が増加していることがわかります。第三に、より確率的な要素を備えたゲームの習得が増加しています。
隠された情報、マルチプレイヤー設定、確率的イベントは、人間間の戦略的相互作用の例外ではなく標準であるため、これらの複雑さを習得することは、現実の世界でナビゲートできるより一般的な超人的戦略的AIを達成するために重要です。
大規模な言語モデルと戦略的ai

私は最近、LLMSがお互いにボードゲームのリスクを再生させた実験を実行しました。実験での私の目的は、LLMSが戦略的な設定でどれだけうまく機能し、箱から出していくかを測定することでした。しかし、適切なコンテキストを提供するためにエージェントに非常に多くの詳細なプロンプトが与えられましたが、おそらく驚くことではありませんが、LLMのパフォーマンスはむしろ平凡でした。
ここで実験に関する記事を見つけることができます：

リスクゲームの設定でLLMSの戦略的機能を探る

実験からの重要な調査結果のいくつかを要約すると、LLMの現在の世代は、強化や勝利の動きを認識するなどの基本的な戦略的概念と闘っています。彼らはまた、彼らがそうすることが戦略的に有益であったとき、他のプレイヤーを排除することに失敗しました。上記の実験は、LLMSが急速に改善されているにもかかわらず、戦略的推論の洗練度がまだ欠けていることを示しています。彼らの非常に一般的なトレーニングデータとそれらがどのように構築されたかを考えると、これは驚きとして来るべきではありません。では、戦略的AIに関する議論にどのように適合しますか？それを理解するには、LLMSが本当に優れていることを理解する必要があります。おそらく、LLMSの最も有望な機能は、膨大な量のテキストを消化して生成する能力です。そして今、マルチモーダルモデル、ビデオ、オーディオもあります。言い換えれば、LLMは人間と他の文脈の両方で、現実の世界と対話するのに最適です。最近、MetaのAIチームは、言語モデルの一般的な言語能力と戦略エンジンの戦略的洞察を組み合わせることができました。
ケーススタディ：Cicero and Diplomacy

外交のゲームは2〜7プレイヤーの戦略ゲームであり、メタはリスク、ポーカー、テレビ番組サバイバーのミックスとして説明しています。プレイヤーはヨーロッパの地図から始めます。 1900年、目的は、供給センターの大半を制御することです。具体的には、プレーヤーは34の供給センターのうち18を制御して勝利を達成することを目指しています。そうすることで、プレーヤーは地図を効果的に支配し、第一次世界大戦に至るまでのヨーロッパに対する彼らの国の優勢を表しています。
これまで議論した他のゲームの多くと外交を際立たせているのは、プレイヤー間の交渉に依存することです。それは、たとえばポーカーよりもはるかに協力的な遊びの形です。各プレイヤーは、各ターン前に他のプレイヤーとコミュニケーションをとるために自然言語を使用し、お互いに味方する計画を立てます。準備が終了すると、すべてのプレイヤーが同時に計画を明らかにし、ターンが実行されます。このタイプのゲームは、明らかに他のほとんどのボードゲームよりも実際の外交と実生活の交渉に似ていますが、自然言語の要素のために、AIがマスターすることは非常に困難でした。
これは、メタのAIチームがCiceroを開発した2022年に変化しました。言語モデリングの最新の進歩を戦略モジュールと組み合わせて、Ciceroは「人間のプレーヤーの平均スコアの2倍以上のスコアを超え、複数のゲームをプレイした参加者の上位10％にランク付けされたゲームエンジンでした。。 "メタが説明しているように、彼らのモデルは戦略に基づいた対話を作成し、対話を認識して戦略を生成することができます。 Ciceroと他の戦略的AIモデルの違い
違い

外交と、最近の戦略的なAIの進歩があった他のゲームのいくつかには、いくつかの重要な違いがあります。最も顕著なのは、ゲームの協力的な性質と、他のゲームの敵対的な性質と比較して、それが使用する自由な自然言語形式です。これらの違いがゲームを本物の人間の相互作用のようにすると主張しますが、それは研究がCiceroをパワーするアルゴリズムをどのように訓練することができるかにも制限をかけます。
PluribusやAlphazeroとは異なり、Ciceroは主に自己プレイと強化学習を通じて訓練されていません。代わりに、Metaチームは、125,000を超えるゲームと40,000,000のメッセージを備えたデータセットを使用して、アルゴリズムのトレーニングを支援しました。彼らは、ゲームの交渉、説得、信頼の側面を考えると、AIが自己プレイを通じて自分自身と交渉させ、人間の相互作用の本質を捉えていない場合、奇妙な行動を見るかもしれないと考えました。彼らの研究記事を引用してください：

"…ゲームの2p0sバージョンで超人的なパフォーマンスを達成した自己プレイアルゴリズムは、潜在的な人間の同盟国の規範と期待と矛盾するポリシーを学習するために、複数の人間のプレイヤーとのゲームでパフォーマンスが低いことがわかりました。 "

ただし、補強学習は、戦略エンジンの一部、特にCiceroの価値関数を訓練するために使用されたものをトレーニングするために使用されました。これは、アクションの有用性を予測する必要があります。研究者は、行動クローニングの修正バージョンであるPiklを使用しました。これは、アクションから期待されるユーティリティを最大化し、人間の行動からの発散を最小限に抑えようとしています。同時に、人間の行動に近づいている間。
外交の上記の特徴は、実際の人間の環境で動作できる戦略的AIの作成に関連するいくつかの重要な問題を強調しており、戦略的AIがどのように進化するかを評価する際に考慮する必要があります。
戦略的AI
の未来

未来を予測することは常に難しいですが、1つのアプローチは、現在の傾向を使用して、将来のシナリオに外挿することです。以下では、以前の議論に密接に関連するいくつかのトピックを調査し、戦略的AIの未来にどのように影響するかを評価します。
一般的なシンボリック戦略エンジン対専門モジュール

これまでのところ、戦略的AIエンジンの軌跡を調べると、各ゲームエンジンがどれほど専門化されているかということです。 Alphazeroが複数の異なるゲームをプレイする方法を学んでいるように、アーキテクチャは似ていますが、AIは特定のゲームごとに数百万のゲームをプレイしています。チェスの場合、Alphazeroは4400万ゲームをプレイし、1億3,000万ゲームを試してみました！一般的な戦略エンジンは、さまざまな状況で広範な戦略的原則を理解し、適用することを目指しています。おそらく、人間の戦略的相互作用の多くの側面を捉えるゲームを作成することで、AIはそれ自体に反対するプレイを通して学び、実際のシナリオに適用される戦略を開発することができます。このアプローチは、AIが学習を一般化し、さまざまなコンテキストで役立つようにするのに役立ちます。一方、特殊なモジュールは、特定のシナリオまたはタスク用に設計されたAIシステムです。複数の専門エージェントを組み合わせることで、一般的な戦略的AIを作成できると想定できます。 AIエージェントは、特定の各分野で優れているように訓練され、最も必要な深い専門知識を提供できます。この方法はAIの一般化能力を制限する可能性がありますが、特定のドメインでの高性能を保証し、実際のアプリケーションに迅速につながる可能性があります。
外交で観察したように、協同設定での自己プレイにAIを使用することの問題と、さまざまな戦略的状況に特化したモジュールを支持するように見える現在の傾向を考えると、近い将来には専門化されているようですさまざまなコンテキストの戦略的モジュール。ただし、一般的な戦略エンジンを使用してより広範なトピックに関する洞察を提供する混合システムを想像することもできますが、特殊なモジュールは複雑で特定の課題を処理します。このバランスにより、AIシステムは、特定の状況の詳細に適応しながら、一般的な戦略的洞察を適用できます。

LLMS戦略モジュールと実際のアプリケーションの間のギャップを埋める

大規模な言語モデルは、AIが人間の言語と対話する方法を変更し、戦略的AIモジュールを実際のユースケースと接続する強力な方法を提供します。 LLMは、人間のようなテキストを理解し、生成するのに優れており、実際の状況を戦略エンジンが処理できる構造化データに変換できる仲介者として理想的です。 MetaのCiceroで見られるように、LLMと戦略的推論を組み合わせることで、AIは共同環境で人間のコミュニケーションを理解し、交渉し、行動を計画することができました。より多くのマルチモーダルモデルへの現在の傾向を考えると、LLMSはテキストだけでなく、実際のコンテキストをマシン読み取り可能な構文に翻訳することもますます増えています。これにより、モデルは仲介者としてさらに便利になります
Cicero向けに開発されたアイデアに基づいて構築された場合、外交コミュニケーションのような特定のタスクのさまざまな言語モデルを微調整することを想定することもできます。最適なアクションがあります。

ヒューマンアイコラボレーション：ケンタウロスモデル

戦略的AIの未来は、意思決定を引き継ぐマシンだけではありません。移行期間は、人間とAIが効果的に協力することでもあります。このパートナーシップは、多くの場合、「Centaurモデル」と呼ばれ、人間の直観とAIのコンピューティングパワーを組み合わせています。このモデルでは、人間は創造性、倫理的判断、柔軟性をもたらし、AIシステムは強力なデータ処理と戦略的原則の一貫した適用を提供します。このモデルの実際の例には、人間のチームが人間または単独で作業する機械よりも優れている領域が含まれます。たとえば、チェスでは、Garry Kasparovは、人間の戦略的洞察とAIの正確な計算を組み合わせて、AIとチームを組むというアイデアを促進しました。 Centaurモデルは、プログラムが本当に良くなり始めるまで、チェスでうまく機能しているように見えました。その時点で、人間の貢献は何の価値もなく、最悪の場合は有害でした。
しかし、チェスよりもオープンエンドで現実世界のような他の領域では、ケンタウロスモデルはおそらく今後の良い賭けです。現代のLLMとの人間のコラボレーションが、生産性を大幅に向上させる可能性があることを考慮してください。
この共同のアプローチは、人間の判断とAI分析を組み合わせることにより、意思決定を改善し、より多くの情報に基づいたバランスの取れた結果につながる可能性があります。人間はAIサポートを使用してリアルタイムで戦略を調整できるため、新しい予期しない状況に迅速に適応することができます。
ゲームを超えた現実世界のアプリケーション

ゲームは戦略的AIを開発するための素晴らしいテスト場でしたが、実際の影響は、これらの進歩を実際の課題に適用することから生じます。以下に、いくつかの例を強調しています。過去数年間で途方もない開発が見られた分野の1つは、自動運転車であり、戦略的AIを使用して道路を安全に航行する方法です。彼らは、他のドライバー、歩行者、およびサイクリストの行動を予測し、対応しなければなりません。たとえば、自動運転車は、歩行者が通りを横断しようとしているかどうか、または別のドライバーが予期せずレーンを変更しようとしているかどうかを予測する必要があります。今年、今年、自動運転車と乗車サービスを開発する会社であるWaymoは、フェニックス、アリゾナ、カリフォルニアのロサンゼルスとサンフランシスコの3つの都市で完全に自律的なタクシーを使用し始めました。今後数年間で、戦略的AIの改善により、完全に自律的な車両が大幅に上昇することが期待できます。
金融市場では、AI主導の取引システムが膨大な量のデータを分析して投資決定を下します。これらのシステムは、市場の動きを予測するために、トレーダーや機関などの他の市場参加者の行動の可能性を考慮しています。彼らは戦略的推論を使用して、リスクを最小限に抑えながら、多くの場合非常に不安定な環境でリスクを最小限に抑えるトレードを実行します。
AIシステムは、サプライヤー、競合他社、顧客の行動を検討することにより、サプライチェーンを最適化します。予想される需要と競合他社の行動に基づいて、生産スケジュール、在庫レベル、ロジスティクスを戦略的に調整できます。たとえば、競合他社が新製品を発売することが期待される場合、AIは需要の潜在的な増加を満たすために在庫レベルを上げることを推奨できます。

戦略的AIは、エネルギー分布を効率的に管理するためにも使用されます。スマートグリッドはAIを使用して消費パターンを予測し、それに応じて供給を調整します。彼らは、価格設定シグナルまたは環境要因に応じて、消費者がどのように使用を変えるかを検討します。 AIは、負荷のバランスをとり、停止を防止し、再生可能エネルギー源を統合するためのリソースを戦略的に割り当てます。
上記の例は、戦略的AIがさまざまな産業や分野にどのように統合されているかを明確に示しています。他の人の行動を考慮することにより、これらのAIシステムは、結果を最適化し、効率を高め、しばしば競争上の優位性を提供する情報に基づいた決定を下します。戦略的AIが改善し続けるにつれて、これらのシステムも改善します。また、他の多くのドメインでもそれらの出現が見られる可能性があります。
結論

戦略的AIは、ディープブルーのギャリーカスパロフに対する勝利以来、長い道のりを歩んできました。複雑なボードゲームの習得から、人間のような交渉に従事することまで、AIシステムはますます戦略的推論能力を示しています。この記事では、戦略的AIの基本的な概念を調査し、ゲーム理論の重要性と、分野からの概念の一部を戦略的AIに適用する方法を強調しました。また、狭いドメインと広範な自己プレイに焦点を当てることにより、特定のゲームで専門的なAIシステムがどのように超人的なパフォーマンスを達成したかを調べました。これは、戦略的AIの将来が、より広範なアプリケーションが可能な一般的な象徴的戦略エンジンの開発にあるのか、特定のタスクに合わせた特殊なモジュールを継続することにあるのかという問題を提起します。 Ciceroで見たように、言語モデルは、戦略的AIの空間にも将来になる可能性があります。 Openai、Anthropic、Metaなどのプロバイダーの新しいモデルは、これらのツールをこれまで以上に容易にし、これらのツールを使用して、実際の世界をAIシステムを処理できる構造化データに変換できる自律エージェントに統合することを可能にします。しかし、現実の世界の複雑さをナビゲートできる汎用戦略AIへの旅は始まったばかりです。ドメイン全体で一般化し、予期せぬ状況に適応し、意思決定プロセスに倫理的な考慮事項を統合できるシステムの開発には課題が残っています。
読んでくれてありがとう！

新しい記事を公開するたびに通知されたいですか？ここで私のニュースレターを購読してください⬅️。無料で、いつでも登録解除できます！
この記事を読んで、私からもっとコンテンツにアクセスしたい場合は、https://www.linkedin.com/in/hans-christian-ekne-1760A259でLinkedInで私に連絡してください。 /またはhttps://www.ekneconsulting.com/の私のWebページにアクセスして、私が提供するサービスのいくつかを探索してください。 [メール保護] 参照

lex fridman。（2019年、10月27日）。 Garry Kasparov：チェス、ディープブルー、AI、プーチン| Lex Fridmanポッドキャスト＃46 [ビデオファイル]。 YouTube。 https://youtu.be/8rva0thwuww?si=1ercnwlan4myok9w

vinyals、O.、Babuschkin、I.、Czarnecki、W.M。マルチエージェント補強学習を使用したStarcraft IIのグランドマスターレベル et al。グランドマスターレベル。自然 575、350–354（2019）。 https://doi.org/10.1038/S41586-019-1724-Z

https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/

ブラウンet al。（2019年8月30日）。マルチプレイヤーポーカー用の超人的AI。 Science 365、885–890、（2019）。 https://www.science.org/doi/epdf/10.1126/science.aay2400
lex fridman。（2022年、12月6日）。ノームブラウン：ポーカーのAI対戦略的交渉のゲーム| Lex Fridmanポッドキャスト＃344 [ビデオファイル]。 YouTube。 https://youtu.be/2ohh4acljqs?si=ave_esb42gngiprg

メタ基本的なAI研究外交チーム（FAIR）†
et al。、言語モデルと戦略的推論を組み合わせることにより、外交のゲームでの人間レベルのプレイ。 378、1067 1074（2022）.doi：10.1126/science.ade9097、 https://noambrown.github.io/papers/22-science-diplomacy-tr.pdf デビッドシルバー
et al。、

以上がマシンが先を考えるとき：戦略的AIの台頭の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。