インテリジェント社会をターゲットとした MetaGPT がユルゲン・シュミットフーバーチームと提携-AI-php.cn

ホームページ

テクノロジー周辺機器

インテリジェント社会をターゲットとした MetaGPT がユルゲン・シュミットフーバーチームと提携

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 09, 2023 am 08:37 AM

業界

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

過去数か月で、MetaGPT [1] のエージェントソフトウェア会社の例は印象的で、すぐに GitHub で 30,000 個のスターを獲得し、数十の世界的なプロフェッショナルメディアや大きな V レポートを獲得しました。しかし、エージェントソフトウェア会社はエージェントソサエティの縮図にすぎません。インテリジェント社会には、ソフトウェア会社、電子商取引会社、ゲーム会社のほか、生産性を提供する多数の独立したエージェントが存在する場合があります。現代人工知能の父であるユルゲンシュミットフーバーも知的社会の概念を強く認識しており、彼と彼のチームは MetaGPT に多大な貢献をしており、MetaGPT 著者のリストに含まれています。

マービンミンスキーは、1986 年という早い時期に、著書「心の社会 (SOM)」[2] で人工知能の分野におけるイデオロギー革命を主導しました。彼は非常に独創的な理論を提案しました: 心は個々の知的なコンポーネントで構成される必要はなく、むしろ一連の単純なコンポーネントの相互作用で構成される複雑なシステムであるということです。私たちが知っていることを生み出したのはこの集合体です。意識。この概念は、自律エージェントの構築とその後の開発に計り知れない広範な影響を与えました。

2023 年に向けて人工知能テクノロジーが飛躍的に進歩することで、それぞれの小さなコンポーネント自体がある程度の知能を持っている場合、それらがどのように相互作用し、どのレベルの集合知が生成されるかを想像できるようになりました。 2023 年上半期の Natural Language Agent Society (NLSOM、Language Agent Society) に関する研究論文 [3] の中には、キング・アブドラ科学技術大学、スイス人工知能研究所、オックスフォード大学、チューリッヒ工科大学の科学者たちは、インテリジェントエージェントコミュニティの可能性を共同で調査しました。

彼らは、単一のエージェントが単独で完了できない、または完了するのが難しいタスクを協力して完了できる、言語主導型のエージェントのコミュニティを構築することを提案しました。この研究は、単なる概念実証を超えた一連の実験的アイデアを提案しており、これらは人間を含む可能性のある何兆もの知的エージェントを含む社会の前兆と見なされています。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

https://arxiv.org/pdf/2305.17066.pdf

2023 年の CogX フェスティバルで、ユルゲン氏は聴衆に大規模なプロジェクトのビジョンを示しました。言語モデル (LLM) からの洞察。エージェントに関連するトピックについて議論する際、彼はユニバーサルチューリングマシン [4] やゲーデルマシン [5] など、自己改善システムを構築するさまざまな方法について言及しました。同氏は、現在の大規模言語モデルは、さまざまなモデルを接続するためのインターフェースとして汎用記号言語 (自然言語やプログラミングコードなど) を使用することで、新しい考え方を提供していると指摘しました。これらのモデルは他の言語モデルと通信して、自然言語心の社会 (NLSOM) パラダイムを構築できます。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

ユルゲン・シュミットフーバー教授は、スイス人工知能研究所 (IDSIA) の科学ディレクターであり、キング・アブドラ科学技術大学 (AI イニシアチブ、KAUST) の人工知能センターの所長でもあります。）。彼の研究は、強化学習 (強化学習)、メタ学習 (メタ学習)、ニューラルネットワーク (ニューラルネットワーク) などの重要な人工知能の方向性に大きな影響を与えています。

これまでのところ、シュミットフーバー教授の Google Scholar での引用数は 210,000 件で、そのうち、共同発明者である長短期記憶 (LSTM) の論文は 90,000 回引用されています。 15 歳のとき、彼は引退するために、より賢く自己改善が可能な人工知能を開発したいと考えていました。 DeepMind を設立した 4 人のうち 2 人、および最初の AI 博士課程の採用者は、ユルゲンシュミットフーバーの研究室の出身でした。

ユルゲンが思い描く社会では、すべてのコミュニケーションが透明で、簡単に解釈できます。彼は、問題が与えられたとき、この自然言語精神社会が協力して問題を解決するという「マインドストーム」という概念について言及しました。

このプロセスでは、社会の構成員それぞれが異なる考えや視点を持っている可能性があり、それらの異なる考えを収集し、統合して集合的な意思決定を行います。

この方法は、単一のエージェントでは効果的に解決できない問題を解決するのに特に適しています。ユルゲン氏はさらに、このような問題は、Python 言語を使用して特定のプログラミング問題を解決するなど、プログラミングの性質のものである可能性があると説明しました。この相乗効果により、インテリジェントエージェント社会の集合知が個人の能力を超えた解決策を達成できるようになります。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

MetaGPT プロジェクトのこの繰り返しでは、ユルゲンから直接指導を受け、彼のチームはコーディング、執筆、エンジニアリングにおいて多大なサポートも提供しました。

次に、この記事では、読者がその詳細をより深く理解できるように、MetaGPT 論文の更新された内容を詳細に分析します。

1. ペーパーとフレームワークの更新

ペーパーセクション 3.1 の更新: MetaGPT フレームワークにおける役割特化設計と役割分業の概念を説明し、役割を説明します。 MetaGPT における単一エージェントの行動パターンと SOP に基づく組織化。

論文セクション 3.2 更新: 構造化通信インターフェイス設計やパブリッシュ/サブスクライブメカニズムなど、MetaGPT フレームワークの通信メカニズムを紹介します。

この文書のセクション 3.3 を更新: 実行可能なフィードバックメカニズムが導入されました。これは、コード実行中の継続的な反復と自己修正のためのメカニズムです。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

図 2. 通信プロトコルの例 (左) と、オンザフライ実行可能フィードバックによる反復プログラミングの例 (右)。左: エージェントは共有メッセージプールを使用して構造化メッセージを公開します。また、設定に基づいて関連メッセージを購読することもできます。右の図: 初期コードを生成した後、エンジニアエージェントはコードを実行し、操作中にエラーが報告されるかどうかを確認できます。エラーが発生した場合、エージェントは実行結果を確認し、PRD、システム設計、コードファイルと比較してコードを書き換えて最適化します。

1.1. エージェント通信プロトコル

現在、ほとんどのマルチエージェントエージェントは自然言語に基づく対話を通じてコラボレーションを完了しますが、これは特定のタスクを解決するのには適していません。

制約や特定の要件のない自然言語出力は、情報コンテンツの歪みや意味論的な焦点の変化につながる可能性があります。

したがって、構造化されたコミュニケーションコンテンツとインターフェイスフォームは、エージェントがタスクの要件を迅速かつ正確に理解するのに役立ち、情報コンテンツの保持を最大限に高めることにも役立ちます。人間の SOP のさまざまなポジションの役割要件を参照して、対応するポジションの人間の専門家と一致する出力仕様を役割ごとに設定し、エージェントに元の自然言語情報をより構造化された表現に変換するよう要求します (図に示すように)。データ構造、API設計、シーケンス図など。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

図 3 MetaGPT ソフトウェア開発プロセス図は、構造化された SOP がより良い結果をもたらすことを示しています。より詳細なデモについては、付録 Bを参照してください。

その後の実験では、ソフトウェアのこの複雑なタスクを実行するために、MetaGPT と ChatDev (チャット形式の通信およびコラボレーションメカニズムを使用) の実際のソリューション効果を比較しました。結果はその構造を示しており、特殊な通信インターフェイス設計はインテリジェントエージェントのコラボレーションに大きな効果をもたらします。

パブリッシュ/サブスクライブメカニズム

マルチエージェントの通信プロセスにおいて、1v1 のシングルポイント通信方式のみに依存すると、通信が複雑になるだけではありません。効率が低いため、開発コストも大幅に増加します。したがって、[パブリッシュ-サブスクライブ] メッセージングメカニズムを通じて、フレームワーク内に共有メッセージプールと関心ベースのサブスクリプションを実装しました。

具体的には、この環境は、エージェントが他のエージェントにいちいち問い合わせることなく、そこから情報を直接取得できる共有メッセージプールを提供します。同時に、エージェントは自身の興味/関心のある行動に基づいてメッセージをフィルタリングしてフィルタリングできるため、メッセージ/メモリの過負荷が軽減されます。図 3 に示すように、アーキテクトは主にプロダクトマネージャーの PRD ドキュメント出力に注意を払いますが、テストエンジニアのドキュメントにはあまり注意を払いません。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

1.2. 実行可能な反復フィードバックの設計

デバッグと実行のフィードバックは、日常のプログラミングタスクにおいて重要な役割を果たします。ただし、既存の手法には自己修正メカニズムが欠けていることが多く、コードのレビューとレビューメカニズムを通じてのみコードの実現可能性評価が行われます。コード生成時の LLM の幻覚問題をさらに軽減するために、コードを反復的に改善するための実行可能なフィードバックメカニズムを導入します。コード実行テスト結果の自動フィードバックにより、コードの実現可能性評価・判断が行われ、LLMによる自己反復・最適化が促進されます。図 2 に示すように、エンジニアはコードの実行結果に基づいてコードを継続的に更新し、テストが合格するか最大 N 回の再試行後に終了するまで繰り返しテストできます。

2. 実験の更新

実験部分では、マルチエージェントフレームワークを SOP に導入する効果に関する探索的実験と、SOP によってもたらされるコードを追加しました。実行可能な反復フィードバック品質改善実験。データセット上:

コード品質への影響評価: HumanEval と MBPP という 2 つの公開ベンチマークデータセットを使用します。
1) HumanEval には 164 の手書きプログラミングタスクが含まれています。これらのタスクには、機能仕様、説明、リファレンスコード、テストが含まれます。
2) MBPP には 427 の Python タスクが含まれています。これらのタスクは、中心的な概念と標準ライブラリの機能をカバーし、命令、リファレンスコード、自動テストが含まれます。
私たちは、より困難なソフトウェア開発タスク用のベンチマークデータセットである SoftwareDev を提案します。私たちの SoftwareDev データセットは、それぞれに独自のタスクプロンプトを持つ 70 の代表的なソフトウェア開発タスクインスタンスを収集します (論文の表 5 を参照)。これらのタスクの範囲は、ミニゲーム、画像処理アルゴリズム、データの視覚化など、多岐にわたります (論文の図 5 を参照)。これらは、実際の開発タスクのための強力なテストプラットフォームを提供します。以前のデータセットとは異なり、SoftwareDev はエンジニアリングの側面に焦点を当てています。比較では、評価対象となる 7 つの代表的なタスクをランダムに選択しました。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

2.1. 実行可能な反復フィードバック設計

図 4 は、MetaGPT が HumanEval ベンチマークと MBPP ベンチマークの両方で良好なパフォーマンスを示していることを示しています. これまでのすべての方法を上回るパフォーマンスを発揮します。 MetaGPT (ベースモデルとして GPT-4 を使用) の場合、HumanEval ベンチマークの Pass@1 は GPT-4 と比較して大幅に向上します。これら 2 つの公開ベンチマークでは 85.9% と 87.7% を達成しました (実験コストを考慮して、一部のモデルの数値結果は Dong et al. (2023) によって提供された結果を直接使用しています。[6])。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

##図 4: 1 回の試行での MBPP および HumanEval の合格率.

2.2. ソフトウェア開発タスクのデータセットと評価指標

SoftwareDev では、ビルドプロジェクトの実際の使いやすさを優先し、手動評価 (A、E) または統計分析 (B、C、D) を通じてパフォーマンスを評価します。視覚的な例を通じて MetaGPT を実証します。独立したソフトウェア (論文の図 5)。追加の実験と分析は、この論文の付録 C にあります。

(A) 実行可能性: この指標は、生成されたコードを 1 (失敗/機能しない) から 4 (欠陥なし) で評価します。 1 は機能しないことを意味し、2 は機能するが完璧ではないことを意味し、3 はほぼ完璧であることを意味し、4 は欠陥がないことを意味します。

(B) コスト: ここでのコスト評価には、(1) プロジェクトの実行時間、(2) トークンの消費、および (3) 実際のコストが含まれます。

(D) 生産効率: 基本的な定義は、トークンの使用量をコードの行数で割ったもの、つまりコードの各行で消費されるトークンであり、値が小さいほどコードの生産性が高くなります。効率。

(E) 手動リビジョンコスト: コードがスムーズに実行されることを保証するために必要なリビジョンラウンドの数で定量化されます。これは、デバッグや依存関係やその他のリビジョンのインポートなどの手動介入の頻度を表します。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

2.3、SOP 対 ChatChain

特定のタスクを解決するシナリオで、複数のタスクに対する SOP の効果を調査するために、 -エージェントのコラボレーションオープンソース作業でのソフトウェア開発タスクをサポートするエージェントフレームワークである ChatDev を実験的な比較対象として選択しました。 ChatDevは、ChatChainの役割分担とソフトウェア開発のウォーターフォールフローに基づいたエージェント組織とコラボレーションのためのフレームワークです。比較のために SoftwareDev から 7 つのタスクを選択し、上記の関連指標を比較して違いを示しました。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

この論文の表 1 に示すように、MetaGPT は、困難な SoftwareDev データセットのほぼすべての指標で ChatDev を上回っています。

例: MetaGPT の実行可能性スコアは 3.75 で、これは 4 (完璧) に非常に近いです。さらに、ChatDev よりも所要時間が大幅に短くなります (503 秒)。

コード統計と手動修正コストの点でも、ChatDev よりも大幅に優れています。 MetaGPT はより多くのトークン (ChatDev の 19,292 と比較して 24,613 または 31,255) を必要としますが、コード行を生成するのに必要なトークンは 126.5/124.3 のみです。比較すると、ChatDev は 248.9 トークンを使用します。

これらの結果は、マルチエージェントのコラボレーションにおける SOP の利点を強調しています。

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

#3. 謝辞

KAUST AI Center 事務局長の Sarah Salhi、ポスドク研究員の Wang Yuhui、博士に感謝します。学生の Wang Wenyi がこの件に関してこの論文は提案と支援を提供します。

[1] https://arxiv.org/pdf/2308.00352.pdf

[2] https://en.wikipedia.org/wiki/Society_of_Mind

[3] https://arxiv.org/pdf/2305.17066.pdf

[4] https://en.wikipedia.org/wiki/Universal_Turing_machine

[5] https://en.wikipedia.org/wiki/Gödel_machine

[6] https://arxiv. org/abs/2304.07590

以上がインテリジェント社会をターゲットとした MetaGPT がユルゲン・シュミットフーバーチームと提携の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

メタの新しいAIアシスタント：生産性ブースターまたはタイムシンク？May 01, 2025 am 11:18 AM

Metaは、NVIDIA、IBM、Dellなどのパートナーと協力して、Llama Stackのエンタープライズレベルの展開統合を拡大しました。セキュリティの観点から、MetaはLlama Guard 4、Llamafirewall、Cyberseceval 4などの新しいツールを立ち上げ、AIセキュリティを強化するためにLlama Defendersプログラムを開始しました。さらに、METAは、公共サービス、ヘルスケア、教育の改善に取り組んでいる新興企業を含む、Llama Impact Grantsの150万ドルを10のグローバル機関に分配しています。 Llama 4を搭載した新しいメタAIアプリケーションは、メタAIとして考案されました

Gen Zersの80％はAI：研究と結婚しますMay 01, 2025 am 11:17 AM

人間との相互作用の先駆者であるJoi Aiは、これらの進化する関係を説明するために「AI-lationships」という用語を導入しました。 Joi Aiの関係療法士であるJaime Bronsteinは、これらが人間cを置き換えることを意図していないことを明確にしています

AIはインターネットのボット問題を悪化させています。この20億ドルのスタートアップは最前線にありますMay 01, 2025 am 11:16 AM

オンライン詐欺とボット攻撃は、企業にとって大きな課題をもたらします。小売業者は、ボットの買いだめ製品、銀行の戦闘口座の買収、ソーシャルメディアプラットフォームと戦い、なりすまし者と闘っています。 AIの台頭は、この問題を悪化させます

ロボットへの販売：あなたのビジネスを作ったり壊したりするマーケティング革命May 01, 2025 am 11:15 AM

AIエージェントは、マーケティングに革命をもたらす態勢が整っており、以前の技術的変化の影響を上回る可能性があります。これらのエージェントは、生成AIの大幅な進歩を表し、ChatGPTのような情報を処理するだけでなく、Actioも取る

コンピュータービジョンテクノロジーがどのようにNBAプレーオフを司会しているかMay 01, 2025 am 11:14 AM

重要なNBAゲーム4の決定に対するAIの影響 2つの重要なゲーム4 NBAマッチアップは、司会におけるAIのゲームを変える役割を紹介しました。最初に、デンバーのニコラ・ジョキッチの逃した3ポインターは、アーロン・ゴードンの最後の2秒の路地につながりました。ソニーのホー

AIがどのように再生医療の未来を加速しているかMay 01, 2025 am 11:13 AM

伝統的に、再生医療の専門知識を拡大すると、世界的に大規模な旅行、実践的なトレーニング、長年のメンターシップが必要でした。現在、AIはこの風景を変えており、地理的な制限を克服し、ENを通じて進歩を加速しています

Intel Foundry Direct Connect 2025からのキーテイクアウトMay 01, 2025 am 11:12 AM

Intelは、製造プロセスを主要な位置に戻すように取り組んでいますが、Fab Semiconductorの顧客を引き付けてFabでチップを作成しようとしています。この目的のために、Intelは、そのプロセスの競争力を証明するだけでなく、パートナーが馴染みのある成熟したワークフローでチップを製造できることを実証するために、業界へのより多くの信頼を築かなければなりません。今日私が聞いたことはすべて、インテルがこの目標に向かっていると信じています。新しいCEOのタンリバイの基調講演がその日をキックオフしました。タンリバイは簡単で簡潔です。彼は、IntelのFoundry Servicesにおけるいくつかの課題と、これらの課題に対処し、将来のIntelのFoundry Servicesの成功したルートを計画するために企業が行った対策を概説しています。 Tan Libaiは、IntelのOEMサービスが顧客をより多くするために実装されているプロセスについて話しました

AIが間違っていましたか？今、そのための保険がありますMay 01, 2025 am 11:11 AM

AIのリスクを取り巻く増大する懸念に対処するために、グローバルな専門家保険会社であるChaucer GroupとArmilla AIは、新しいサードパーティの責任（TPL）保険商品を導入するために力を合わせました。このポリシーは、企業を守ります

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。