ホームページ >テクノロジー周辺機器 >AI >インテリジェント社会をターゲットとした MetaGPT がユルゲン・シュミットフーバーチームと提携

インテリジェント社会をターゲットとした MetaGPT がユルゲン・シュミットフーバーチームと提携

WBOY
WBOY転載
2023-11-09 08:37:451080ブラウズ

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

過去数か月で、MetaGPT [1] のエージェント ソフトウェア会社の例は印象的で、すぐに GitHub で 30,000 個のスターを獲得し、数十の世界的なプロフェッショナル メディアや大きな V レポートを獲得しました。しかし、エージェント ソフトウェア会社はエージェント ソサエティの縮図にすぎません。インテリジェント社会には、ソフトウェア会社、電子商取引会社、ゲーム会社のほか、生産性を提供する多数の独立したエージェントが存在する場合があります。現代人工知能の父であるユルゲン シュミットフーバーも知的社会の概念を強く認識しており、彼と彼のチームは MetaGPT に多大な貢献をしており、MetaGPT 著者のリストに含まれています。

マービン ミンスキーは、1986 年という早い時期に、著書「心の社会 (SOM)」[2] で人工知能の分野におけるイデオロギー革命を主導しました。彼は非常に独創的な理論を提案しました: 心は個々の知的なコンポーネントで構成される必要はなく、むしろ一連の単純なコンポーネントの相互作用で構成される複雑なシステムであるということです。私たちが知っていることを生み出したのはこの集合体です。意識。この概念は、自律エージェントの構築とその後の開発に計り知れない広範な影響を与えました。

2023 年に向けて人工知能テクノロジーが飛躍的に進歩することで、それぞれの小さなコンポーネント自体がある程度の知能を持っている場合、それらがどのように相互作用し、どのレベルの集合知が生成されるかを想像できるようになりました。 2023 年上半期の Natural Language Agent Society (NLSOM、Language Agent Society) に関する研究論文 [3] の中には、キング・アブドラ科学技術大学、スイス人工知能研究所、オックスフォード大学、チューリッヒ工科大学の科学者たちは、インテリジェント エージェント コミュニティの可能性を共同で調査しました。

彼らは、単一のエージェントが単独で完了できない、または完了するのが難しいタスクを協力して完了できる、言語主導型のエージェントのコミュニティを構築することを提案しました。この研究は、単なる概念実証を超えた一連の実験的アイデアを提案しており、これらは人間を含む可能性のある何兆もの知的エージェントを含む社会の前兆と見なされています。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

https://arxiv.org/pdf/2305.17066.pdf

2023 年の CogX フェスティバルで、ユルゲン氏は聴衆に大規模なプロジェクトのビジョンを示しました。言語モデル (LLM) からの洞察。エージェントに関連するトピックについて議論する際、彼はユニバーサル チューリング マシン [4] やゲーデル マシン [5] など、自己改善システムを構築するさまざまな方法について言及しました。同氏は、現在の大規模言語モデルは、さまざまなモデルを接続するためのインターフェースとして汎用記号言語 (自然言語やプログラミング コードなど) を使用することで、新しい考え方を提供していると指摘しました。これらのモデルは他の言語モデルと通信して、自然言語心の社会 (NLSOM) パラダイムを構築できます。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

ユルゲン・シュミットフーバー教授は、スイス人工知能研究所 (IDSIA) の科学ディレクターであり、キング・アブドラ科学技術大学 (AI イニシアチブ、KAUST) の人工知能センターの所長でもあります。 )。彼の研究は、強化学習 (強化学習)、メタ学習 (メタ学習)、ニューラル ネットワーク (ニューラル ネットワーク) などの重要な人工知能の方向性に大きな影響を与えています。

これまでのところ、シュミットフーバー教授の Google Scholar での引用数は 210,000 件で、そのうち、共同発明者である長短期記憶 (LSTM) の論文は 90,000 回引用されています。 15 歳のとき、彼は引退するために、より賢く自己改善が可能な人工知能を開発したいと考えていました。 DeepMind を設立した 4 人のうち 2 人、および最初の AI 博士課程の採用者は、ユルゲン シュミットフーバーの研究室の出身でした。

ユルゲンが思い描く社会では、すべてのコミュニケーションが透明で、簡単に解釈できます。彼は、問題が与えられたとき、この自然言語精神社会が協力して問題を解決するという「マインドストーム」という概念について言及しました。

このプロセスでは、社会の構成員それぞれが異なる考えや視点を持っている可能性があり、それらの異なる考えを収集し、統合して集合的な意思決定を行います。

この方法は、単一のエージェントでは効果的に解決できない問題を解決するのに特に適しています。ユルゲン氏はさらに、このような問題は、Python 言語を使用して特定のプログラミング問題を解決するなど、プログラミングの性質のものである可能性があると説明しました。この相乗効果により、インテリジェントエージェント社会の集合知が個人の能力を超えた解決策を達成できるようになります。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

MetaGPT プロジェクトのこの繰り返しでは、ユルゲンから直接指導を受け、彼のチームはコーディング、執筆、エンジニアリングにおいて多大なサポートも提供しました。

次に、この記事では、読者がその詳細をより深く理解できるように、MetaGPT 論文の更新された内容を詳細に分析します。

1. ペーパーとフレームワークの更新

ペーパー セクション 3.1 の更新: MetaGPT フレームワークにおける役割特化設計と役割分業の概念を説明し、役割を説明します。 MetaGPT における単一エージェントの行動パターンと SOP に基づく組織化。

論文セクション 3.2 更新: 構造化通信インターフェイス設計やパブリッシュ/サブスクライブ メカニズムなど、MetaGPT フレームワークの通信メカニズムを紹介します。

この文書のセクション 3.3 を更新: 実行可能なフィードバック メカニズムが導入されました。これは、コード実行中の継続的な反復と自己修正のためのメカニズムです。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

図 2. 通信プロトコルの例 (左) と、オンザフライ実行可能フィードバックによる反復プログラミングの例 (右)。左: エージェントは共有メッセージ プールを使用して構造化メッセージを公開します。また、設定に基づいて関連メッセージを購読することもできます。右の図: 初期コードを生成した後、エンジニア エージェントはコードを実行し、操作中にエラーが報告されるかどうかを確認できます。エラーが発生した場合、エージェントは実行結果を確認し、PRD、システム設計、コードファイルと比較してコードを書き換えて最適化します。

1.1. エージェント通信プロトコル

現在、ほとんどのマルチエージェントエージェントは自然言語に基づく対話を通じてコラボレーションを完了しますが、これは特定のタスクを解決するのには適していません。

制約や特定の要件のない自然言語出力は、情報コンテンツの歪みや意味論的な焦点の変化につながる可能性があります。

したがって、構造化されたコミュニケーション コンテンツとインターフェイス フォームは、エージェントがタスクの要件を迅速かつ正確に理解するのに役立ち、情報コンテンツの保持を最大限に高めることにも役立ちます。人間の SOP のさまざまなポジションの役割要件を参照して、対応するポジションの人間の専門家と一致する出力仕様を役割ごとに設定し、エージェントに元の自然言語情報をより構造化された表現に変換するよう要求します (図に示すように)。データ構造、API設計、シーケンス図など。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

図 3 MetaGPT ソフトウェア開発プロセス図は、構造化された SOP がより良い結果をもたらすことを示しています。より詳細なデモについては、付録 Bを参照してください。

その後の実験では、ソフトウェアのこの複雑なタスクを実行するために、MetaGPT と ChatDev (チャット形式の通信およびコラボレーション メカニズムを使用) の実際のソリューション効果を比較しました。結果はその構造を示しており、特殊な通信インターフェイス設計はインテリジェント エージェントのコラボレーションに大きな効果をもたらします。

パブリッシュ/サブスクライブ メカニズム

マルチエージェントの通信プロセスにおいて、1v1 のシングルポイント通信方式のみに依存すると、通信が複雑になるだけではありません。効率が低いため、開発コストも大幅に増加します。したがって、[パブリッシュ-サブスクライブ] メッセージング メカニズムを通じて、フレームワーク内に共有メッセージ プールと関心ベースのサブスクリプションを実装しました。

具体的には、この環境は、エージェントが他のエージェントにいちいち問い合わせることなく、そこから情報を直接取得できる共有メッセージ プールを提供します。同時に、エージェントは自身の興味/関心のある行動に基づいてメッセージをフィルタリングしてフィルタリングできるため、メッセージ/メモリの過負荷が軽減されます。図 3 に示すように、アーキテクトは主にプロダクト マネージャーの PRD ドキュメント出力に注意を払いますが、テスト エンジニアのドキュメントにはあまり注意を払いません。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

1.2. 実行可能な反復フィードバックの設計

デバッグと実行のフィードバックは、日常のプログラミング タスクにおいて重要な役割を果たします。ただし、既存の手法には自己修正メカニズムが欠けていることが多く、コードのレビューとレビュー メカニズムを通じてのみコードの実現可能性評価が行われます。コード生成時の LLM の幻覚問題をさらに軽減するために、コードを反復的に改善するための実行可能なフィードバック メカニズムを導入します。コード実行テスト結果の自動フィードバックにより、コードの実現可能性評価・判断が行われ、LLMによる自己反復・最適化が促進されます。図 2 に示すように、エンジニアはコードの実行結果に基づいてコードを継続的に更新し、テストが合格するか最大 N 回の再試行後に終了するまで繰り返しテストできます。

2. 実験の更新

実験部分では、マルチエージェント フレームワークを SOP に導入する効果に関する探索的実験と、SOP によってもたらされるコードを追加しました。実行可能な反復フィードバック品質改善実験。データセット上:

  1. コード品質への影響評価: HumanEval と MBPP という 2 つの公開ベンチマーク データ セットを使用します。
    1) HumanEval には 164 の手書きプログラミング タスクが含まれています。これらのタスクには、機能仕様、説明、リファレンス コード、テストが含まれます。
    2) MBPP には 427 の Python タスクが含まれています。これらのタスクは、中心的な概念と標準ライブラリの機能をカバーし、命令、リファレンス コード、自動テストが含まれます。
  2. 私たちは、より困難なソフトウェア開発タスク用のベンチマーク データセットである SoftwareDev を提案します。私たちの SoftwareDev データセットは、それぞれに独自のタスク プロンプトを持つ 70 の代表的なソフトウェア開発タスク インスタンスを収集します (論文の表 5 を参照)。これらのタスクの範囲は、ミニゲーム、画像処理アルゴリズム、データの視覚化など、多岐にわたります (論文の図 5 を参照)。これらは、実際の開発タスクのための強力なテスト プラットフォームを提供します。以前のデータセットとは異なり、SoftwareDev はエンジニアリングの側面に焦点を当てています。比較では、評価対象となる 7 つの代表的なタスクをランダムに選択しました。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

2.1. 実行可能な反復フィードバック設計

図 4 は、MetaGPT が HumanEval ベンチマークと MBPP ベンチマークの両方で良好なパフォーマンスを示していることを示しています. これまでのすべての方法を上回るパフォーマンスを発揮します。 MetaGPT (ベース モデルとして GPT-4 を使用) の場合、HumanEval ベンチマークの Pass@1 は GPT-4 と比較して大幅に向上します。これら 2 つの公開ベンチマークでは 85.9% と 87.7% を達成しました (実験コストを考慮して、一部のモデルの数値結果は Dong et al. (2023) によって提供された結果を直接使用しています。[6])。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

##図 4: 1 回の試行での MBPP および HumanEval の合格率.

2.2. ソフトウェア開発タスクのデータセットと評価指標

SoftwareDev では、ビルド プロジェクトの実際の使いやすさを優先し、手動評価 (A、E) または統計分析 (B、C、D) を通じてパフォーマンスを評価します。視覚的な例を通じて MetaGPT を実証します。独立したソフトウェア (論文の図 5)。追加の実験と分析は、この論文の付録 C にあります。

(A) 実行可能性: この指標は、生成されたコードを 1 (失敗/機能しない) から 4 (欠陥なし) で評価します。 1 は機能しないことを意味し、2 は機能するが完璧ではないことを意味し、3 はほぼ完璧であることを意味し、4 は欠陥がないことを意味します。

(B) コスト: ここでのコスト評価には、(1) プロジェクトの実行時間、(2) トークンの消費、および (3) 実際のコストが含まれます。

(C) コード統計: (1) コード ファイルの数、(2) ファイルごとのコードの平均行数、および (3) コードの合計行数が含まれます。

(D) 生産効率: 基本的な定義は、トークンの使用量をコードの行数で割ったもの、つまりコードの各行で消費されるトークンであり、値が小さいほどコードの生産性が高くなります。効率。

(E) 手動リビジョン コスト: コードがスムーズに実行されることを保証するために必要なリビジョン ラウンドの数で定量化されます。これは、デバッグや依存関係やその他のリビジョンのインポートなどの手動介入の頻度を表します。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

2.3、SOP 対 ChatChain

特定のタスクを解決するシナリオで、複数のタスクに対する SOP の効果を調査するために、 -エージェントのコラボレーション オープンソース作業でのソフトウェア開発タスクをサポートするエージェント フレームワークである ChatDev を実験的な比較対象として選択しました。 ChatDevは、ChatChainの役割分担とソフトウェア開発のウォーターフォールフローに基づいたエージェント組織とコラボレーションのためのフレームワークです。比較のために SoftwareDev から 7 つのタスクを選択し、上記の関連指標を比較して違いを示しました。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

この論文の表 1 に示すように、MetaGPT は、困難な SoftwareDev データセットのほぼすべての指標で ChatDev を上回っています。

例: MetaGPT の実行可能性スコアは 3.75 で、これは 4 (完璧) に非常に近いです。さらに、ChatDev よりも所要時間が大幅に短くなります (503 秒)。

コード統計と手動修正コストの点でも、ChatDev よりも大幅に優れています。 MetaGPT はより多くのトークン (ChatDev の 19,292 と比較して 24,613 または 31,255) を必要としますが、コード行を生成するのに必要なトークンは 126.5/124.3 のみです。比較すると、ChatDev は 248.9 トークンを使用します。

これらの結果は、マルチエージェントのコラボレーションにおける SOP の利点を強調しています。

目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队

#3. 謝辞

KAUST AI Center 事務局長の Sarah Salhi、ポスドク研究員の Wang Yuhui、博士に感謝します。学生の Wang Wenyi がこの件に関してこの論文は提案と支援を提供します。

[1] https://arxiv.org/pdf/2308.00352.pdf

[2] https://en.wikipedia.org/wiki/Society_of_Mind

[3] https://arxiv.org/pdf/2305.17066.pdf

[4] https://en.wikipedia.org/wiki/Universal_Turing_machine

[5] https://en.wikipedia.org/wiki/Gödel_machine

[6] https://arxiv. org/abs/2304.07590

以上がインテリジェント社会をターゲットとした MetaGPT がユルゲン・シュミットフーバーチームと提携の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。