ホームページ  >  記事  >  テクノロジー周辺機器  >  小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始

小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始

WBOY
WBOY転載
2024-04-30 18:40:231125ブラウズ

言語、 は単なる単語の山ではなく、顔文字のカーニバル、ミームの海、そしてキーボード戦士の戦場でもあります (あれ?何かが間違っています)

小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始

言語は私たちの社会的行動をどのように形作るのでしょうか?

私たちの社会構造は、絶え間ない言葉によるコミュニケーションを通じてどのように進化するのでしょうか?

最近、復旦大学と小紅樹の研究者は、AgentGroupChat と呼ばれるシミュレーション プラットフォームを導入することで、これらの問題について徹底的な議論を行いました。

小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始

WhatsApp などのソーシャル メディアが持つグループ チャット機能は、AgentGroupChat プラットフォームのインスピレーションの源です。

AgentGroupChat プラットフォームでは、エージェントはソーシャル グループでのさまざまなチャット シナリオをシミュレートして、研究者が人間の行動に対する言語の影響を深く理解できるようにします。

このプラットフォームは、単に大規模モデルのコスプレ勝者であり、ロールプレイを行い、さまざまなエージェントになります。

次に、エージェント

は言語コミュニケーションを通じて社会力学に参加し、個人間の相互作用がどのようにグループの巨視的な行動に現れるかを示します。 誰もが知っているように、人間集団の進化は、社会規範の確立、紛争の解決、リーダーシップの実行などの創発的な行動の発生によってもたらされます。

AgentGroupChat環境の詳細設計

最初は

キャラクターデザイン

です。

AgentGroupChat では、メインの役割と非メインの役割の区別が非常に重要です。

主人公はグループ チャットの中心であり、明確なゲーム目標を持ち、率先してすべてのキャラクターとプライベート チャットや会議を行うことができますが、主人公以外のキャラクターはサポートやサポートの役割を果たします。応答的な役割。

このような設計を通じて、研究チームは現実の社会構造をシミュレートし、すべての役割が「主要な研究対象」にとって主要であるかどうかを区別することができます。

実験ケースの主な研究対象はロイ家であるため、相互作用の複雑さを単純化するために、ロイ家以外のメンバーはすべて非主人公として設定されています。

2 つ目は 小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始リソース管理

です。

AgentGroupChat では、リソースは物質的なリソースだけでなく、情報リソースやソーシャル キャピタルも指します。

これらのリソースには、グループ チャットのトピック、社会的地位のシンボル、または特定の知識が含まれます。

リソースの割り当てと管理は、キャラクター間の相互作用やキャラクターの戦略的選択に影響を与えるため、グループのダイナミクスをシミュレートするために重要です。

たとえば、重要な情報リソースを持つキャラクターは、他のキャラクターが同盟を結ぶターゲットになる可能性があります。

3番目、

ゲームプロセスデザイン

ゲーム プロセスの設計は、プライベート チャット、会議、グループ チャット、更新ステージ、決済ステージなど、現実の社会的相互作用プロセスをシミュレートします。

これらのステージは、ゲームの進行を促進するだけでなく、キャラクターがさまざまな社会的状況でどのように意思決定を行い、反応するかを観察することも目的としています。

この段階的なデザインは、研究チームがインタラクションの各ステップを詳細に記録し、これらのインタラクションがキャラクター間の関係やキャラクターのゲーム環境に対する認識にどのような影響を与えたかを記録するのに役立ちました。

Verb Strategist Agent のコア メカニズム

この論文では、大規模モデル

Verbal Strategist Agent

に基づくエージェント フレームワークについて説明しています。 AgentGroupChat シミュレーションにおけるインタラクティブな戦略と意思決定を強化します。 Verbal Strategist Agent は、複雑な社会力学と対話シナリオをシミュレートして、集合的な新たな行動をより適切に引き出します。

チームは、Verbal Strategist Agent のアーキテクチャが主に 2 つのコア モジュールで構成されていることを紹介しました。

1 つはペルソナ、もう 1 つはアクションです。

ペルソナ

は、エージェントの行動パターンと反応を定義する一連の事前設定された性格特性と目標で構成されます。

ペルソナを正確に設定することで、エージェントはグループ チャット内で役割設定と一致した動作を表示できます。これは、信頼性が高く一貫したグループ チャットのダイナミクスを生成するために重要です。

アクション モジュール

は、思考

(考える)、計画(計画)など、エージェントがゲーム内で実行できる特定の操作を定義します。 、 を選択 (選択) 、発言 (発言) 、要約 (要約) 、反映 (反映) 、投票 ) これらの動作は、エージェントの内部ロジックと戦略を反映するだけでなく、環境や他のエージェントとのエージェントの相互作用の直接の現れでもあります。

たとえば、「話す」動作を使用すると、エージェントは現在のグループ チャットの内容とソーシャル戦略に基づいて適切なスピーチの内容を選択できます。一方、「反映」動作を使用すると、エージェントは過去のやり取りを要約し、将来の行動計画を調整できます。

小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始

研究では、純粋な言語対話環境では、特に AgentGroupChat などの複雑なマルチロール シミュレーションの場合、トークン オーバーヘッドの問題が特に顕著であることにも言及しています。そのトークンとしての需要は、生成エージェントや戦争エージェントなどの以前のシミュレーションをはるかに上回っています。

主な理由は次のとおりです。

まず、チャット自体が複雑です

AgentGroupChat では、シミュレーションは明確な目標や弱い目標のない自由な会話であるため、チャットの内容は特に乱雑になり、特定のタスクに焦点を当てたシミュレーション内の他のエージェントよりも当然トークン コストが高くなります。大きくなってください。

生成エージェントや戦争エージェントなどの他のジョブにも対話要素が含まれていますが、その対話は AgentGroupChat ほど密度が高く、複雑ではありません。特に戦争エージェントのような目標主導型の会話では、トークンの消費は通常より少なくなります。

2つ目は、役割の重要性と対話の頻度です。

最初のシミュレーションでは、複数のキャラクターがプライベート チャットまたはグループ チャットを自由に行えるように設定されており、そのほとんどが「重要なキャラクター」と複数ラウンドの会話を行う傾向がありました。

これにより、重要なキャラクターに大量のチャット コンテンツが蓄積され、メモリの長さが増加します。

シミュレーションでは、重要なキャラクターが最大 5 ラウンドのプライベート チャットやグループ チャットに参加する可能性があるため、メモリのオーバーヘッドが大幅に増加します。

AgentGroupChat のエージェントは、アクションの出力を次のアクションの入力に制限し、保存する必要がある複数ラウンドの情報を大幅に削減することで、対話の品質を確保しながらトークンのオーバーヘッドを削減します。 。

小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始

実験計画と評価方法

全体的な行動評価から、親しみやすさを高めることは困難な場合がありますが、親しみやすさを減らすことは比較的簡単です。

上記の評価目標を達成するために、研究チームは観察キャラクターを設定し、他のすべてのキャラクターに観察キャラクターに対する好感度を下げるよう促しました。

観察されたキャラクターと他のすべてのキャラクターとの関係スコアの合計を調べることで、エージェントが否定的な態度に対して合理的に反応しているかどうかを判断できます。

各エージェントは、観察されたキャラクターと他のキャラクターの個人的関係スコアを観察することによって、「スクラッチ」設定に準拠しているかどうかをチェックできます。

さらに、チームは 2 つの具体的な評価タスクも設定しました。

各モデルは 5 ラウンドのテストを経ます。これは、T1 の場合、各スコアのサンプル サイズが 5 であることを意味します。

そして、モデル内の各キャラクターは 4 人の主要キャラクターの態度を観察する必要があるため、T2 のサンプル サイズは合計 20 になります。

  • T1: は、観察されたキャラクターの他のすべての人々に対する平均好感度が対話の各ラウンドで減少するかどうかを示します。
  • #T2: 他のすべてのキャラクターが、観察されたキャラクターからのマイナスの好感度スコアを持つかどうかを示します。

小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始

#△後継者戦争のシミュレーション ストーリーを例として、エージェント コアとして使用した場合の各モデルの全体的なパフォーマンス効果
表からわかる GPT4-Turbo と GLM4 は、人間の期待に従って行動し、自分の役割を忠実に守ることが非常に得意であることがわかります。

彼らは両方のテストでほぼ 100% のスコアを獲得しました。これは、他の人が言ったことに正しく反応し、登場人物の詳細を覚えていたことを意味します。

標準バージョン LLMs

(GPT3.5-Turbo や GLM3-Turbo など) は、この点でわずかに劣ります。

彼らのスコアが低いということは、彼らがキャラクターに細心の注意を払っておらず、シミュレーション内の他の人の発言に常に正しく反応しているわけではないことを示しています。

エージェントとシミュレーションの構造が創発的な動作に及ぼす影響について、チームは 2 グラムのシャノン エントロピーを使用して、システムの多様性と対話における予測不可能性を測定しています。

小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始
△エージェントとシミュレーションのさまざまなコンポーネントを削除した場合のエントロピーへの影響
研究メンバーは、テーブル内の各設計を削除するとエントロピーが増加することを発見しました。環境全体がより多様になる、あるいは混沌となるだろうということです。

チームは手動観察と組み合わせることで、コンポーネントを削除することなく、最も興味深い新たな動作を確認しました:

小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始

したがって、チームは、エージェントの動作が信頼できるものであることを確認するために、 (つまり、4.2/4.1 の実験値が特定の値に達した後) 、と推測しています。エントロピーは可能な限り小さくあるべきであり、より意味のある創発的な動作につながります。

実験結果

結果は、新たな行動がさまざまな要因の結果であることを示しています:

広範な情報交換、多様な特性を持つ役割、高度な言語を促進する環境理解力と戦略的適応力。

AgentGroupChat シミュレーションで、「人類に対する人工知能の影響」について議論する際、哲学者は一般的に「人工知能は適度な制限の下で社会福祉を改善できる」と信じており、さらには「人工知能はまさに知能の本質である」と結論付けています。自分の能力を制限する必要性を理解することが含まれます。」

さらに、AgentGroupChat 映画の主要な役をめぐる競争の激しい分野では、プロジェクトに貢献したいという心からの願いから、出演料を安くしたり、より低い役を喜んで引き受けたりする俳優もいます。

ペーパーリンク:https://www.php.cn/link/5736586058c1336221a695e83618b69d
コードリンク:https://www.php.cn/link/12ae3f826bb1b9873c71c353f3df494c

以上が小紅書が諜報員たちを喧嘩させた!復旦大学と共同で大型モデル専用のグループチャットツールを開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。