ホームページ  >  記事  >  テクノロジー周辺機器  >  OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

王林
王林オリジナル
2024-08-05 21:40:01947ブラウズ
人気のユニバーサル大型モデルエージェントプラットフォーム。

今年 3 月、「世界初の AI ソフトウェア エンジニア」デビンが AI サークルを爆発させました。これまでの AI プログラミング アシスタントとは異なり、Devin はプログラミングを支援する役割を果たすだけでなく、開発プロジェクト全体を独立してエンドツーエンドで完了することができます。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

Devin の誕生により、私たちは大規模モデル エージェントの強力な能力を理解できるようになりました。すぐに、それを模倣しようとする多くのオープンソース プロジェクトが業界に現れました。その中でも、OpenDevin は際立って最も注目を集めました。

OpenDevin は、ソフトウェアを通じて世界と対話する汎用エージェントを開発するためのプラットフォームです。その機能には以下が含まれます:

  • 大規模モデルのエージェント、インターフェース、環境間の対話メカニズム

  • エージェントが利用可能なサンドボックス操作Web ブラウザ環境、

  • コードを作成および実行するためのインターフェイス、

  • 評価フレームワーク。

  • 現在、OpenDevin の GitHub には 29,000 個を超えるスターが付いています。

最近、OpenaDevin チームはこのツールに関する技術レポートをリリースしました。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

レポートアドレス: https://arxiv.org/pdf/2407.16741

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました技術レポートでは、OpenDevin の著者、イリノイ大学アーバナシャンペーン校、カーネギーメロン大学およびその他の機関の学者が OpenDevin を紹介しました。詳細には、これは、ソフトウェアを通じて世界と対話する汎用および特殊な AI エージェントの開発を目的としたコミュニティ主導のプラットフォームです。

さらに重要なのは、OpenDevin は概念的なフレームワークであるだけでなく、包括的ですぐに使用できるエージェント、環境、評価の実装も含まれていることです。このレポートの時点で、OpenDevin には、CodeAct アーキテクチャに基づいて実装された強力な一般エージェントを含む 10 を超えるエージェントが実装されているエージェント センターが含まれており、Web ブラウジングとコード編集のための機能が追加されています。ユーザーとエージェントの対話はチャット インターフェイスを通じて行われ、エージェントの現在の操作が視覚化され、リアルタイムのフィードバックが可能になります。さらに、評価フレームワークは現在、エージェントのパフォーマンスの評価に使用できる 15 のベンチマークをサポートしています。

OpenDevin アーキテクチャ

この記事では、著者は次の側面から OpenDevin について説明します: (1) エージェントを定義および実装する方法、(2) アクションの実行により観察が促進される方法、(3) 一般的に使用される管理および拡張方法。エージェント向けのツール スキル (4) 複数のエージェントを組み合わせてタスクを解決する方法。

エージェントを定義および実装する方法OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

エージェントは環境の状態を感知し、ユーザー指定のタスクを解決するときに実行されるアクションを生成できます。 ステータスとイベントのストリーミング。 OpenDevin では、状態は、エージェントがタスクを実行するために関連するすべての情報をカプセル化するデータ構造です。この状態の重要なコンポーネントは、過去のアクションと観察の時系列のコレクションであるイベント ストリーミングです。

アクション。 CodeAct からインスピレーションを得た OpenDevin は、アクションのコア セットを通じてエージェントを環境に接続します。アクション IPythonRunCellAction および CmdRunAction を使用すると、エージェントはサンドボックス環境 (安全に分離された Linux オペレーティング システムなど) 内で任意の Python コードおよび bash コマンドを実行できます。 BrowserInteractiveAction を使用すると、エージェントは Web ブラウザと対話できるようになります。

観察してください。観測値は、エージェントによって観測された環境の変化を記述します。これは、エージェントのアクションによって引き起こされる場合とそうでない場合があります。1) ユーザーによって与えられた自然言語命令、2) エージェントの以前のアクションの実行結果 (コード実行結果など) が考えられます。

新しいエージェントを実装します。エージェントの設計はシンプルでありながら強力であるため、ユーザーはさまざまなタスク用にエージェントを簡単に作成およびカスタマイズできます。核心はステップ関数にあり、現在の状態を入力として受け取り、エージェントのロジックに基づいて適切なアクションを生成します。図 2 は、エージェント抽象化の簡略化されたコード例を示しています。

アクションの実行結果を観察するOpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

エージェント ランタイムは、人間のソフトウェア開発者と同等のアクション スペースをエージェントに提供し、OpenDevin が複雑なソフトウェア開発作業プロセスを含む、さまざまなソフトウェア開発や Web ベースのタスクを処理できるようにします。 、データ分析プロジェクト、Web 閲覧タスクなど。これにより、エージェントは bash ターミナルにアクセスしてコードやコマンドライン ツールを実行したり、Jupyter ノートブックを活用してオンザフライでコードを作成および実行したり、Web ブラウザと対話して Web ベースのタスク (情報検索など) を実行したりすることができます。

拡張可能なエージェントとコンピューターのインターフェイス

著者は、エージェントの機能を強化するように設計されたツールボックスである AgentSkills ライブラリを構築し、基本的な bash コマンドや Python コードではすぐに利用できないユーティリティを提供します。

マルチエージェントの対話

OpenDevin を使用すると、複数のエージェントの対話が可能になります。これを実現するために、作成者は、エージェントが特定のサブタスクを別のエージェントに委任できるようにする特別なアクション タイプである AgentDelegateAction を使用しました。

評価

このセクションでは、OpenDevin (以下の実験結果では OD と略します) とオープンソースの再現可能なベースライン手法を比較します。これら 15 のベンチマークは、ソフトウェア エンジニアリング、Web ブラウジングなどのタスクをカバーします。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

表 3 は、OpenDevin エージェントがすべてのカテゴリで最適なパフォーマンスを達成できるわけではないものの、汎用性を念頭に置いて設計されていることを示しています。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

表 4 は、ソフトウェア エンジニアリング ベンチマークにおけるエージェントの結果を報告します。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

具体的には:

SWE-bench は、バグレポートや機能リクエストなどの GitHub の問題を解決するエージェントの能力を評価するように設計されています。表 4 に示すように、この記事の最新バージョンの CodeActAgent v1.8 は、claude-3.5-sonnet に基づいており、ソフトウェア開発専用に使用される他のオープンソース エージェントと比較して、最大 26% の問題解決率を持っています。

HumanEvalFix。 OpenDevin CodeActAgent は、Python 分割のエラーの 79.3% を修正することに成功し、すべての非エージェント方式を大幅に上回り、StarCoder2-15B のパフォーマンスをほぼ 2 倍にしました。

GPT-4o に基づく OpenDevin エージェントは、ML-Bench で 76.47% という最高の成功率を達成しました。これは、SWE-Agent (42.64%) よりも優れています。

Gorilla APIBench は、エージェントの API 使用能力を検査します。 GPT-4o を使用した OpenDevin は 36.4% の成功率を達成し、API 呼び出し用に特に微調整されていないベースラインを上回りました。

ToolQA は、外部ツールを使用するエージェントの能力を評価します。 GPT-4o を使用した OpenDevin は、すべてのベースラインと比較して最高のパフォーマンスを示します。エージェントは、CSV およびデータベース ツールの使用に関連するタスクのパフォーマンスは向上しましたが、数学および電卓ツールの使用については改善が必要でした。

表 5 に、Web ブラウジング ベンチマークの評価結果を示します。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

表 6 は、さまざまな補助ベンチマークの結果を示しています。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

その中で、GAIA は一般的なタスクを解決するエージェントの能力を評価するために使用され、その結果、エージェントが GAIA で 32.1 のスコアを達成したことが示されており、これは元の AutoGPT よりも大幅に向上しています。

GPQA は、大学院レベルの難しい問題を解決しながら、ツールの使用を調整するエージェントの能力を評価するために使用されます。結果を表 6 と 7 に示します。OpenDevin は、複数のツールと Web 検索の使用をサポートする機能を統合し、エージェントが複雑な複数ステップの問題をより適切に解決できるようにします。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

その他の結果については、元の論文を参照してください。

以上がOpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。