ホームページ >テクノロジー周辺機器 >AI >味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

WBOY
WBOY転載
2023-04-11 23:25:01835ブラウズ

ゲームは長い間、AI の進歩の実験場であり、チェスのグランドマスター、ガルリー カスパロフに対するディープ ブルーの勝利から、AlphaGo の人間を超えた囲碁の達人、そしてポーカーで最高のプレイヤーを破る Pluribus に至るまで。しかし、本当に役立つ全能のエージェントは、ボード ゲームをプレイしてチェスの駒を動かすだけではできません。こう思わずにはいられません。言語を使用して人々と交渉し、説得し、人間と同じように戦略的目標を達成するために協力できる、より効果的で柔軟なエージェントを構築できないでしょうか?

ゲームの歴史の中でも古典的な卓上ゲーム「ディプロマシー」がありますが、初めてこのゲームを見た多くの人は、そのマップ形式のボードに衝撃を受けるでしょう。それを複雑な戦争ゲームとして考えてください。実際にはそうではありません。これは、味方を獲得するために言語を動員する必要があるゲームです。意思決定と交渉が必要です。プレイヤー間で多くのコミュニケーションが必要です。ゲームに勝つための鍵は、人々の間の相互作用にあります。 。

メタはこのゲームへの挑戦を開始しました。彼らが構築した知的エージェント CICERO は、外交において人間のレベルに達した最初の AI になりました。 CICERO はオンライン バージョンの webDiplomacy.net でこれを実証しました。そこでは、CICERO は平均して人間のプレイヤーの 2 倍以上のスコアを獲得し、複数のゲームをプレイした参加者の上位 10% にランクされました。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です


  • 論文アドレス: https://www.science.org/doi/10.1126/ science.ade9097
  • ホームページアドレス: https://ai.facebook.com/research/cicero/diplomacy/

このゲームではプレイヤーが他者の動機や視点を理解し、複雑な計画を立て、戦略を調整し、それに基づいて自然言語を使用して他者と合意に達する必要があるため、10 年間、外交は AI の分野で克服できない課題とみなされてきました。 、他者を説得してパートナーシップや同盟を形成するなど。これらはエージェントにとって依然として困難であり、CICERO は自然言語を使用して外交関係者と交渉するのに依然として非常に効果的です。

チェスや囲碁とは異なり、外交は駒ではなく人間に関するゲームです。エージェントが対戦相手がブラフをしているのか、それとも実際に妨害行為をしているのかを見分けることができなければ、すぐにゲームに負けてしまいます。同様に、エージェントが人間のようにコミュニケーションをとったり、共感を示したり、他者との関係を構築したり、ゲームについて話したりすることができない場合、協力してくれる他のプレイヤーは見つかりません。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

Meta の研究では、戦略的推論 (AlphaGo、Pluribus など) と自然言語処理 (GPT-3、BlenderBot 3、LaMDA、OPT など) を組み合わせています。 -175B)を組み合わせました。たとえば、ゲームの後半で CICERO は特定のプレイヤーのサポートが必要になると推測し、そのプレイヤーの支持を得る戦略を立てます。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

CICERO の構築方法

CICERO の中核は、制御可能な対話モデルと戦略的推論エンジンです。ゲームのあらゆる時点で、CICERO はゲームボードとその会話履歴を調べ、他のプレイヤーが行う可能性のある行動をモデル化します。次に、言語モデルを制御し、その計画を他のプレーヤーに伝え、他のプレーヤーとうまく調整できる合理的なアクションを提案するための計画が作成されます。

制御可能な対話

制御可能な対話モデルを構築するために、Meta は制御可能な対話モデルから開始します。 27 億のパラメータ: 私たちは BART のような言語モデルから開始し、インターネットからのテキストで事前トレーニングし、webDiplomacy.net 上の 40,000 以上の人間のゲームで微調整しました。

#実装プロセスは主に次のステップに分かれています:

#ステップ 1: ボードの状態と現在のダイアログに基づいて、CICEROそれぞれの人が決定を下します 最初の予測を与えるもの。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

ステップ 2: CICERO は、最初の予測を繰り返し改善し、改善された予測を使用して、CICERO 自身とそのパートナーに対する意図を形成します。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

#ステップ 3: 理事会の状態、対話、意図に基づいて複数の候補メッセージを生成します。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

ステップ 4: 候補メッセージをフィルタリングし、価値を最大化し、お互いの意図が一貫していることを確認します。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

研究者らは、対話の品質をさらに向上させるために、訓練された分類器を使用して対話を区別するなど、いくつかのフィルタリング メカニズムを使用しました。人間とモデル ダイアログが意味をなしていること、現在のゲーム状態や以前の情報と一致していること、戦略的に健全であることを保証するために生成されたテキスト。

会話を意識した戦略と計画

協力を伴うゲームでは、エージェントは現実の人間をシミュレートする方法を学ぶ必要があります人間を、エージェントが何をすべきかを指示する機械として扱うのではなく、実際に人生で何をするのか。したがって、メタは、CICERO が策定した計画が他の関係者との対話と一致することを望んでいます。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

ヒューマン モデリングの古典的な方法は、ラベル付きデータ (過去のゲームの人間プレイヤーなど) を使用する教師あり学習です。アクション データベース) を使用してエージェントをトレーニングします。ただし、過去の会話に基づいてアクションを選択する教師あり学習のみに依存すると、エージェントが比較的弱く、簡単に悪用されてしまいます。たとえば、プレイヤーはエージェントに「軍隊をパリから移動させることに合意できてうれしいです!」と言うことができます。同様の情報は合意に達した場合にのみトレーニング データに表示されるため、エージェントは実際に軍隊を移動させる可能性があります。たとえそれが明らかに戦略上の間違いであったとしても、パリから。

この問題を解決するために、CICERO は反復計画アルゴリズムを実行して、会話の一貫性と合理性のバランスをとります。エージェントはまず、他のプレイヤーとの会話に基づいて現在のターンの各プレイヤーの戦略を予測し、また他のプレイヤーがエージェントの戦略をどのように考えるかを予測します。次に、「piKL」と呼ばれる計画アルゴリズムを実行します。これは、他のプレイヤーが予測した戦略を考慮して、より高い期待値を持つ新しい戦略を選択しようとすることで、これらの予測を繰り返し改善するとともに、新しい予測を元の戦略に近づけようとします。予測。研究者らは、piKL が純粋な教師あり学習よりも人間のゲームをより適切にシミュレートし、エージェントに優れた戦略をもたらすことができることを発見しました。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

自然で目的のある対話を生み出す

外交においては、プレイヤー同士がどのように会話するかは、駒をどのように動かすかよりもさらに重要です。 CICERO は、他のプレイヤーと戦略を立てる際に、明確かつ説得力のあるコミュニケーションをとることができます。たとえば、あるデモでは、CICERO は 1 人のプレイヤーにボードの特定の部分を直ちにサポートするよう求め、一方で別のプレイヤーにはゲームの後半で同盟を検討するよう圧力をかけました。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

交換では、CICERO は 3 人の異なるプレイヤーにアクションを提案することで戦略を実行しようとします。 2 番目の会話では、エージェントは他のプレイヤーに、協力する必要がある理由と、それが双方にどのような利益をもたらすかを伝えることができます。この 3 回目の対話では、CICERO は情報を募り、将来の行動に向けた基礎を築いています。

弱点

CICERO は、その目標を損なう一貫性のない対話を行う場合があることを認識しなければなりません。以下の例では、CICERO はオーストリアを演じていますが、エージェントはイタリアにヴェネツィアに移動するよう求めており、最初のメッセージと矛盾しています。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

Diplomacy」で人間と AI のインタラクションのサンドボックスを前進させましょう

両方の協力 競争も伴うゲームにおける目標指向の対話システムの出現は、AI を人間の意図や目標に合わせる上で重要な社会的および技術的課題を引き起こします。外交は、この問題を研究するのに特に興味深い環境を提供します。ゲームをプレイするには、相反する目標と格闘し、これらの複雑な目標を自然言語に翻訳する必要があるからです。簡単な例として、プレイヤーは味方との関係を維持するために短期的な利益を犠牲にすることを選択するかもしれません。なぜなら、その味方が次のターンでより有利な立場に立つのに役立つかもしれないからです。

Meta はこの作業で大幅な進歩を遂げましたが、言語モデルと具体的な意図を強力に組み合わせる能力、およびそれらの意図を決定する技術的 (および規範的) 課題は依然として重要です。質問。 Meta は、CICERO コードをオープンソース化することで、AI 研究者が責任ある方法でこの研究を継続できることを期待しています。同チームは、「ゼロショット分類に会話モデルを使用することで、この新しい分野で有害な情報を検出して削除するための早期の措置を講じました。『ディプロマシー』が人間とAIの相互作用を前進させるための安全なサンドボックスとして機能することを期待しています」と述べた。研究。 》

今後の方向性

CICERO は現在、外交ゲームしかプレイできませんが、この成果の背後にあるテクノロジーは多くの現実世界のアプリケーションに関連しています。たとえば、計画と RL を通じて自然言語生成を制御することで、人間と AI 主導のエージェントとの間のコミュニケーションの障壁を軽減できます。

たとえば、今日の AI アシスタントは、天気を教えるなどの単純な質問に答えるのが得意ですが、新しいスキルを教えるという目的で長期間の会話を続けることができたらどうなるでしょうか。 ?

また、NPC が人間のように計画を立て、会話できるビデオ ゲームを想像してみてください。プレイヤーの動機を理解し、それに応じて対話を調整することで、城を襲撃するというクエストを完了することができます。

これらの「夢」は、将来、現実になるかもしれません。

以上が味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。