ゲームは長い間、AI の進歩の実験場であり、チェスのグランドマスター、ガルリー カスパロフに対するディープ ブルーの勝利から、AlphaGo の人間を超えた囲碁の達人、そしてポーカーで最高のプレイヤーを破る Pluribus に至るまで。しかし、本当に役立つ全能のエージェントは、ボード ゲームをプレイしてチェスの駒を動かすだけではできません。こう思わずにはいられません。言語を使用して人々と交渉し、説得し、人間と同じように戦略的目標を達成するために協力できる、より効果的で柔軟なエージェントを構築できないでしょうか?
ゲームの歴史の中でも古典的な卓上ゲーム「ディプロマシー」がありますが、初めてこのゲームを見た多くの人は、そのマップ形式のボードに衝撃を受けるでしょう。それを複雑な戦争ゲームとして考えてください。実際にはそうではありません。これは、味方を獲得するために言語を動員する必要があるゲームです。意思決定と交渉が必要です。プレイヤー間で多くのコミュニケーションが必要です。ゲームに勝つための鍵は、人々の間の相互作用にあります。 。
メタはこのゲームへの挑戦を開始しました。彼らが構築した知的エージェント CICERO は、外交において人間のレベルに達した最初の AI になりました。 CICERO はオンライン バージョンの webDiplomacy.net でこれを実証しました。そこでは、CICERO は平均して人間のプレイヤーの 2 倍以上のスコアを獲得し、複数のゲームをプレイした参加者の上位 10% にランクされました。
- 論文アドレス: https://www.science.org/doi/10.1126/ science.ade9097
- ホームページアドレス: https://ai.facebook.com/research/cicero/diplomacy/
このゲームではプレイヤーが他者の動機や視点を理解し、複雑な計画を立て、戦略を調整し、それに基づいて自然言語を使用して他者と合意に達する必要があるため、10 年間、外交は AI の分野で克服できない課題とみなされてきました。 、他者を説得してパートナーシップや同盟を形成するなど。これらはエージェントにとって依然として困難であり、CICERO は自然言語を使用して外交関係者と交渉するのに依然として非常に効果的です。
チェスや囲碁とは異なり、外交は駒ではなく人間に関するゲームです。エージェントが対戦相手がブラフをしているのか、それとも実際に妨害行為をしているのかを見分けることができなければ、すぐにゲームに負けてしまいます。同様に、エージェントが人間のようにコミュニケーションをとったり、共感を示したり、他者との関係を構築したり、ゲームについて話したりすることができない場合、協力してくれる他のプレイヤーは見つかりません。
Meta の研究では、戦略的推論 (AlphaGo、Pluribus など) と自然言語処理 (GPT-3、BlenderBot 3、LaMDA、OPT など) を組み合わせています。 -175B)を組み合わせました。たとえば、ゲームの後半で CICERO は特定のプレイヤーのサポートが必要になると推測し、そのプレイヤーの支持を得る戦略を立てます。
CICERO の構築方法
CICERO の中核は、制御可能な対話モデルと戦略的推論エンジンです。ゲームのあらゆる時点で、CICERO はゲームボードとその会話履歴を調べ、他のプレイヤーが行う可能性のある行動をモデル化します。次に、言語モデルを制御し、その計画を他のプレーヤーに伝え、他のプレーヤーとうまく調整できる合理的なアクションを提案するための計画が作成されます。
制御可能な対話
制御可能な対話モデルを構築するために、Meta は制御可能な対話モデルから開始します。 27 億のパラメータ: 私たちは BART のような言語モデルから開始し、インターネットからのテキストで事前トレーニングし、webDiplomacy.net 上の 40,000 以上の人間のゲームで微調整しました。
#実装プロセスは主に次のステップに分かれています:
#ステップ 1: ボードの状態と現在のダイアログに基づいて、CICEROそれぞれの人が決定を下します 最初の予測を与えるもの。
ステップ 2: CICERO は、最初の予測を繰り返し改善し、改善された予測を使用して、CICERO 自身とそのパートナーに対する意図を形成します。
#ステップ 3: 理事会の状態、対話、意図に基づいて複数の候補メッセージを生成します。
ステップ 4: 候補メッセージをフィルタリングし、価値を最大化し、お互いの意図が一貫していることを確認します。
研究者らは、対話の品質をさらに向上させるために、訓練された分類器を使用して対話を区別するなど、いくつかのフィルタリング メカニズムを使用しました。人間とモデル ダイアログが意味をなしていること、現在のゲーム状態や以前の情報と一致していること、戦略的に健全であることを保証するために生成されたテキスト。
会話を意識した戦略と計画
協力を伴うゲームでは、エージェントは現実の人間をシミュレートする方法を学ぶ必要があります人間を、エージェントが何をすべきかを指示する機械として扱うのではなく、実際に人生で何をするのか。したがって、メタは、CICERO が策定した計画が他の関係者との対話と一致することを望んでいます。
ヒューマン モデリングの古典的な方法は、ラベル付きデータ (過去のゲームの人間プレイヤーなど) を使用する教師あり学習です。アクション データベース) を使用してエージェントをトレーニングします。ただし、過去の会話に基づいてアクションを選択する教師あり学習のみに依存すると、エージェントが比較的弱く、簡単に悪用されてしまいます。たとえば、プレイヤーはエージェントに「軍隊をパリから移動させることに合意できてうれしいです!」と言うことができます。同様の情報は合意に達した場合にのみトレーニング データに表示されるため、エージェントは実際に軍隊を移動させる可能性があります。たとえそれが明らかに戦略上の間違いであったとしても、パリから。
この問題を解決するために、CICERO は反復計画アルゴリズムを実行して、会話の一貫性と合理性のバランスをとります。エージェントはまず、他のプレイヤーとの会話に基づいて現在のターンの各プレイヤーの戦略を予測し、また他のプレイヤーがエージェントの戦略をどのように考えるかを予測します。次に、「piKL」と呼ばれる計画アルゴリズムを実行します。これは、他のプレイヤーが予測した戦略を考慮して、より高い期待値を持つ新しい戦略を選択しようとすることで、これらの予測を繰り返し改善するとともに、新しい予測を元の戦略に近づけようとします。予測。研究者らは、piKL が純粋な教師あり学習よりも人間のゲームをより適切にシミュレートし、エージェントに優れた戦略をもたらすことができることを発見しました。
自然で目的のある対話を生み出す
外交においては、プレイヤー同士がどのように会話するかは、駒をどのように動かすかよりもさらに重要です。 CICERO は、他のプレイヤーと戦略を立てる際に、明確かつ説得力のあるコミュニケーションをとることができます。たとえば、あるデモでは、CICERO は 1 人のプレイヤーにボードの特定の部分を直ちにサポートするよう求め、一方で別のプレイヤーにはゲームの後半で同盟を検討するよう圧力をかけました。
交換では、CICERO は 3 人の異なるプレイヤーにアクションを提案することで戦略を実行しようとします。 2 番目の会話では、エージェントは他のプレイヤーに、協力する必要がある理由と、それが双方にどのような利益をもたらすかを伝えることができます。この 3 回目の対話では、CICERO は情報を募り、将来の行動に向けた基礎を築いています。
弱点
CICERO は、その目標を損なう一貫性のない対話を行う場合があることを認識しなければなりません。以下の例では、CICERO はオーストリアを演じていますが、エージェントはイタリアにヴェネツィアに移動するよう求めており、最初のメッセージと矛盾しています。
「Diplomacy」で人間と AI のインタラクションのサンドボックスを前進させましょう
両方の協力 競争も伴うゲームにおける目標指向の対話システムの出現は、AI を人間の意図や目標に合わせる上で重要な社会的および技術的課題を引き起こします。外交は、この問題を研究するのに特に興味深い環境を提供します。ゲームをプレイするには、相反する目標と格闘し、これらの複雑な目標を自然言語に翻訳する必要があるからです。簡単な例として、プレイヤーは味方との関係を維持するために短期的な利益を犠牲にすることを選択するかもしれません。なぜなら、その味方が次のターンでより有利な立場に立つのに役立つかもしれないからです。
Meta はこの作業で大幅な進歩を遂げましたが、言語モデルと具体的な意図を強力に組み合わせる能力、およびそれらの意図を決定する技術的 (および規範的) 課題は依然として重要です。質問。 Meta は、CICERO コードをオープンソース化することで、AI 研究者が責任ある方法でこの研究を継続できることを期待しています。同チームは、「ゼロショット分類に会話モデルを使用することで、この新しい分野で有害な情報を検出して削除するための早期の措置を講じました。『ディプロマシー』が人間とAIの相互作用を前進させるための安全なサンドボックスとして機能することを期待しています」と述べた。研究。 》
今後の方向性
CICERO は現在、外交ゲームしかプレイできませんが、この成果の背後にあるテクノロジーは多くの現実世界のアプリケーションに関連しています。たとえば、計画と RL を通じて自然言語生成を制御することで、人間と AI 主導のエージェントとの間のコミュニケーションの障壁を軽減できます。
たとえば、今日の AI アシスタントは、天気を教えるなどの単純な質問に答えるのが得意ですが、新しいスキルを教えるという目的で長期間の会話を続けることができたらどうなるでしょうか。 ?
また、NPC が人間のように計画を立て、会話できるビデオ ゲームを想像してみてください。プレイヤーの動機を理解し、それに応じて対話を調整することで、城を襲撃するというクエストを完了することができます。
これらの「夢」は、将来、現実になるかもしれません。
以上が味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ドリームウィーバー CS6
ビジュアル Web 開発ツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。
