味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です-AI-php.cn

ホームページ

テクノロジー周辺機器

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 11:25 PM

aiエージェント

ゲームは長い間、AI の進歩の実験場であり、チェスのグランドマスター、ガルリーカスパロフに対するディープブルーの勝利から、AlphaGo の人間を超えた囲碁の達人、そしてポーカーで最高のプレイヤーを破る Pluribus に至るまで。しかし、本当に役立つ全能のエージェントは、ボードゲームをプレイしてチェスの駒を動かすだけではできません。こう思わずにはいられません。言語を使用して人々と交渉し、説得し、人間と同じように戦略的目標を達成するために協力できる、より効果的で柔軟なエージェントを構築できないでしょうか?

ゲームの歴史の中でも古典的な卓上ゲーム「ディプロマシー」がありますが、初めてこのゲームを見た多くの人は、そのマップ形式のボードに衝撃を受けるでしょう。それを複雑な戦争ゲームとして考えてください。実際にはそうではありません。これは、味方を獲得するために言語を動員する必要があるゲームです。意思決定と交渉が必要です。プレイヤー間で多くのコミュニケーションが必要です。ゲームに勝つための鍵は、人々の間の相互作用にあります。。

メタはこのゲームへの挑戦を開始しました。彼らが構築した知的エージェント CICERO は、外交において人間のレベルに達した最初の AI になりました。 CICERO はオンラインバージョンの webDiplomacy.net でこれを実証しました。そこでは、CICERO は平均して人間のプレイヤーの 2 倍以上のスコアを獲得し、複数のゲームをプレイした参加者の上位 10% にランクされました。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

論文アドレス: https://www.science.org/doi/10.1126/ science.ade9097
ホームページアドレス: https://ai.facebook.com/research/cicero/diplomacy/

このゲームではプレイヤーが他者の動機や視点を理解し、複雑な計画を立て、戦略を調整し、それに基づいて自然言語を使用して他者と合意に達する必要があるため、10 年間、外交は AI の分野で克服できない課題とみなされてきました。、他者を説得してパートナーシップや同盟を形成するなど。これらはエージェントにとって依然として困難であり、CICERO は自然言語を使用して外交関係者と交渉するのに依然として非常に効果的です。

チェスや囲碁とは異なり、外交は駒ではなく人間に関するゲームです。エージェントが対戦相手がブラフをしているのか、それとも実際に妨害行為をしているのかを見分けることができなければ、すぐにゲームに負けてしまいます。同様に、エージェントが人間のようにコミュニケーションをとったり、共感を示したり、他者との関係を構築したり、ゲームについて話したりすることができない場合、協力してくれる他のプレイヤーは見つかりません。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

Meta の研究では、戦略的推論 (AlphaGo、Pluribus など) と自然言語処理 (GPT-3、BlenderBot 3、LaMDA、OPT など) を組み合わせています。 -175B）を組み合わせました。たとえば、ゲームの後半で CICERO は特定のプレイヤーのサポートが必要になると推測し、そのプレイヤーの支持を得る戦略を立てます。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

CICERO の構築方法

CICERO の中核は、制御可能な対話モデルと戦略的推論エンジンです。ゲームのあらゆる時点で、CICERO はゲームボードとその会話履歴を調べ、他のプレイヤーが行う可能性のある行動をモデル化します。次に、言語モデルを制御し、その計画を他のプレーヤーに伝え、他のプレーヤーとうまく調整できる合理的なアクションを提案するための計画が作成されます。

制御可能な対話

制御可能な対話モデルを構築するために、Meta は制御可能な対話モデルから開始します。 27 億のパラメータ: 私たちは BART のような言語モデルから開始し、インターネットからのテキストで事前トレーニングし、webDiplomacy.net 上の 40,000 以上の人間のゲームで微調整しました。

#実装プロセスは主に次のステップに分かれています:

#ステップ 1: ボードの状態と現在のダイアログに基づいて、CICEROそれぞれの人が決定を下します最初の予測を与えるもの。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

ステップ 2: CICERO は、最初の予測を繰り返し改善し、改善された予測を使用して、CICERO 自身とそのパートナーに対する意図を形成します。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

#ステップ 3: 理事会の状態、対話、意図に基づいて複数の候補メッセージを生成します。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

ステップ 4: 候補メッセージをフィルタリングし、価値を最大化し、お互いの意図が一貫していることを確認します。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

研究者らは、対話の品質をさらに向上させるために、訓練された分類器を使用して対話を区別するなど、いくつかのフィルタリングメカニズムを使用しました。人間とモデルダイアログが意味をなしていること、現在のゲーム状態や以前の情報と一致していること、戦略的に健全であることを保証するために生成されたテキスト。

会話を意識した戦略と計画

協力を伴うゲームでは、エージェントは現実の人間をシミュレートする方法を学ぶ必要があります人間を、エージェントが何をすべきかを指示する機械として扱うのではなく、実際に人生で何をするのか。したがって、メタは、CICERO が策定した計画が他の関係者との対話と一致することを望んでいます。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

ヒューマンモデリングの古典的な方法は、ラベル付きデータ (過去のゲームの人間プレイヤーなど) を使用する教師あり学習です。アクションデータベース) を使用してエージェントをトレーニングします。ただし、過去の会話に基づいてアクションを選択する教師あり学習のみに依存すると、エージェントが比較的弱く、簡単に悪用されてしまいます。たとえば、プレイヤーはエージェントに「軍隊をパリから移動させることに合意できてうれしいです!」と言うことができます。同様の情報は合意に達した場合にのみトレーニングデータに表示されるため、エージェントは実際に軍隊を移動させる可能性があります。たとえそれが明らかに戦略上の間違いであったとしても、パリから。

この問題を解決するために、CICERO は反復計画アルゴリズムを実行して、会話の一貫性と合理性のバランスをとります。エージェントはまず、他のプレイヤーとの会話に基づいて現在のターンの各プレイヤーの戦略を予測し、また他のプレイヤーがエージェントの戦略をどのように考えるかを予測します。次に、「piKL」と呼ばれる計画アルゴリズムを実行します。これは、他のプレイヤーが予測した戦略を考慮して、より高い期待値を持つ新しい戦略を選択しようとすることで、これらの予測を繰り返し改善するとともに、新しい予測を元の戦略に近づけようとします。予測。研究者らは、piKL が純粋な教師あり学習よりも人間のゲームをより適切にシミュレートし、エージェントに優れた戦略をもたらすことができることを発見しました。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

自然で目的のある対話を生み出す

外交においては、プレイヤー同士がどのように会話するかは、駒をどのように動かすかよりもさらに重要です。 CICERO は、他のプレイヤーと戦略を立てる際に、明確かつ説得力のあるコミュニケーションをとることができます。たとえば、あるデモでは、CICERO は 1 人のプレイヤーにボードの特定の部分を直ちにサポートするよう求め、一方で別のプレイヤーにはゲームの後半で同盟を検討するよう圧力をかけました。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

交換では、CICERO は 3 人の異なるプレイヤーにアクションを提案することで戦略を実行しようとします。 2 番目の会話では、エージェントは他のプレイヤーに、協力する必要がある理由と、それが双方にどのような利益をもたらすかを伝えることができます。この 3 回目の対話では、CICERO は情報を募り、将来の行動に向けた基礎を築いています。

弱点

CICERO は、その目標を損なう一貫性のない対話を行う場合があることを認識しなければなりません。以下の例では、CICERO はオーストリアを演じていますが、エージェントはイタリアにヴェネツィアに移動するよう求めており、最初のメッセージと矛盾しています。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

「Diplomacy」で人間と AI のインタラクションのサンドボックスを前進させましょう

両方の協力競争も伴うゲームにおける目標指向の対話システムの出現は、AI を人間の意図や目標に合わせる上で重要な社会的および技術的課題を引き起こします。外交は、この問題を研究するのに特に興味深い環境を提供します。ゲームをプレイするには、相反する目標と格闘し、これらの複雑な目標を自然言語に翻訳する必要があるからです。簡単な例として、プレイヤーは味方との関係を維持するために短期的な利益を犠牲にすることを選択するかもしれません。なぜなら、その味方が次のターンでより有利な立場に立つのに役立つかもしれないからです。

Meta はこの作業で大幅な進歩を遂げましたが、言語モデルと具体的な意図を強力に組み合わせる能力、およびそれらの意図を決定する技術的 (および規範的) 課題は依然として重要です。質問。 Meta は、CICERO コードをオープンソース化することで、AI 研究者が責任ある方法でこの研究を継続できることを期待しています。同チームは、「ゼロショット分類に会話モデルを使用することで、この新しい分野で有害な情報を検出して削除するための早期の措置を講じました。『ディプロマシー』が人間とAIの相互作用を前進させるための安全なサンドボックスとして機能することを期待しています」と述べた。研究。》

今後の方向性

CICERO は現在、外交ゲームしかプレイできませんが、この成果の背後にあるテクノロジーは多くの現実世界のアプリケーションに関連しています。たとえば、計画と RL を通じて自然言語生成を制御することで、人間と AI 主導のエージェントとの間のコミュニケーションの障壁を軽減できます。

たとえば、今日の AI アシスタントは、天気を教えるなどの単純な質問に答えるのが得意ですが、新しいスキルを教えるという目的で長期間の会話を続けることができたらどうなるでしょうか。 ?

また、NPC が人間のように計画を立て、会話できるビデオゲームを想像してみてください。プレイヤーの動機を理解し、それに応じて対話を調整することで、城を襲撃するというクエストを完了することができます。

これらの「夢」は、将来、現実になるかもしれません。

以上が味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム：AIの意思決定力に深く飛び込みます医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。それが人工知能の専門家システムの力です。これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4：AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は？ - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース：地理空間技術の革新へのゲートウェイインド宇宙研究機関（ISRO）は、インドのリモートセンシング研究所（IIRS）を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム：包括的なガイド大規模なイベントを計画するには、効率的なワークロード分布が必要です。従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト：ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、