OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました-AI-php.cn

ホームページ

テクノロジー周辺機器

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

王林

Aug 05, 2024 pm 09:40 PM

業界

人気のユニバーサル大型モデルエージェントプラットフォーム。

今年 3 月、「世界初の AI ソフトウェアエンジニア」デビンが AI サークルを爆発させました。これまでの AI プログラミングアシスタントとは異なり、Devin はプログラミングを支援する役割を果たすだけでなく、開発プロジェクト全体を独立してエンドツーエンドで完了することができます。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

Devin の誕生により、私たちは大規模モデルエージェントの強力な能力を理解できるようになりました。すぐに、それを模倣しようとする多くのオープンソースプロジェクトが業界に現れました。その中でも、OpenDevin は際立って最も注目を集めました。

OpenDevin は、ソフトウェアを通じて世界と対話する汎用エージェントを開発するためのプラットフォームです。その機能には以下が含まれます:

大規模モデルのエージェント、インターフェース、環境間の対話メカニズム
エージェントが利用可能なサンドボックス操作Web ブラウザ環境、
コードを作成および実行するためのインターフェイス、
評価フレームワーク。
現在、OpenDevin の GitHub には 29,000 個を超えるスターが付いています。

最近、OpenaDevin チームはこのツールに関する技術レポートをリリースしました。

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

レポートアドレス: https://arxiv.org/pdf/2407.16741

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました技術レポートでは、OpenDevin の著者、イリノイ大学アーバナシャンペーン校、カーネギーメロン大学およびその他の機関の学者が OpenDevin を紹介しました。詳細には、これは、ソフトウェアを通じて世界と対話する汎用および特殊な AI エージェントの開発を目的としたコミュニティ主導のプラットフォームです。

さらに重要なのは、OpenDevin は概念的なフレームワークであるだけでなく、包括的ですぐに使用できるエージェント、環境、評価の実装も含まれていることです。このレポートの時点で、OpenDevin には、CodeAct アーキテクチャに基づいて実装された強力な一般エージェントを含む 10 を超えるエージェントが実装されているエージェントセンターが含まれており、Web ブラウジングとコード編集のための機能が追加されています。ユーザーとエージェントの対話はチャットインターフェイスを通じて行われ、エージェントの現在の操作が視覚化され、リアルタイムのフィードバックが可能になります。さらに、評価フレームワークは現在、エージェントのパフォーマンスの評価に使用できる 15 のベンチマークをサポートしています。

OpenDevin アーキテクチャ

この記事では、著者は次の側面から OpenDevin について説明します: (1) エージェントを定義および実装する方法、(2) アクションの実行により観察が促進される方法、(3) 一般的に使用される管理および拡張方法。エージェント向けのツールスキル (4) 複数のエージェントを組み合わせてタスクを解決する方法。

エージェントを定義および実装する方法 OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

エージェントは環境の状態を感知し、ユーザー指定のタスクを解決するときに実行されるアクションを生成できます。ステータスとイベントのストリーミング。 OpenDevin では、状態は、エージェントがタスクを実行するために関連するすべての情報をカプセル化するデータ構造です。この状態の重要なコンポーネントは、過去のアクションと観察の時系列のコレクションであるイベントストリーミングです。

アクション。 CodeAct からインスピレーションを得た OpenDevin は、アクションのコアセットを通じてエージェントを環境に接続します。アクション IPythonRunCellAction および CmdRunAction を使用すると、エージェントはサンドボックス環境 (安全に分離された Linux オペレーティングシステムなど) 内で任意の Python コードおよび bash コマンドを実行できます。 BrowserInteractiveAction を使用すると、エージェントは Web ブラウザと対話できるようになります。

観察してください。観測値は、エージェントによって観測された環境の変化を記述します。これは、エージェントのアクションによって引き起こされる場合とそうでない場合があります。1) ユーザーによって与えられた自然言語命令、2) エージェントの以前のアクションの実行結果 (コード実行結果など) が考えられます。

新しいエージェントを実装します。エージェントの設計はシンプルでありながら強力であるため、ユーザーはさまざまなタスク用にエージェントを簡単に作成およびカスタマイズできます。核心はステップ関数にあり、現在の状態を入力として受け取り、エージェントのロジックに基づいて適切なアクションを生成します。図 2 は、エージェント抽象化の簡略化されたコード例を示しています。

アクションの実行結果を観察する OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

エージェントランタイムは、人間のソフトウェア開発者と同等のアクションスペースをエージェントに提供し、OpenDevin が複雑なソフトウェア開発作業プロセスを含む、さまざまなソフトウェア開発や Web ベースのタスクを処理できるようにします。、データ分析プロジェクト、Web 閲覧タスクなど。これにより、エージェントは bash ターミナルにアクセスしてコードやコマンドラインツールを実行したり、Jupyter ノートブックを活用してオンザフライでコードを作成および実行したり、Web ブラウザと対話して Web ベースのタスク (情報検索など) を実行したりすることができます。

拡張可能なエージェントとコンピューターのインターフェイス

著者は、エージェントの機能を強化するように設計されたツールボックスである AgentSkills ライブラリを構築し、基本的な bash コマンドや Python コードではすぐに利用できないユーティリティを提供します。

マルチエージェントの対話

OpenDevin を使用すると、複数のエージェントの対話が可能になります。これを実現するために、作成者は、エージェントが特定のサブタスクを別のエージェントに委任できるようにする特別なアクションタイプである AgentDelegateAction を使用しました。

評価

このセクションでは、OpenDevin (以下の実験結果では OD と略します) とオープンソースの再現可能なベースライン手法を比較します。これら 15 のベンチマークは、ソフトウェアエンジニアリング、Web ブラウジングなどのタスクをカバーします。

表 3 は、OpenDevin エージェントがすべてのカテゴリで最適なパフォーマンスを達成できるわけではないものの、汎用性を念頭に置いて設計されていることを示しています。

表 4 は、ソフトウェアエンジニアリングベンチマークにおけるエージェントの結果を報告します。

具体的には:

SWE-bench は、バグレポートや機能リクエストなどの GitHub の問題を解決するエージェントの能力を評価するように設計されています。表 4 に示すように、この記事の最新バージョンの CodeActAgent v1.8 は、claude-3.5-sonnet に基づいており、ソフトウェア開発専用に使用される他のオープンソースエージェントと比較して、最大 26% の問題解決率を持っています。

HumanEvalFix。 OpenDevin CodeActAgent は、Python 分割のエラーの 79.3% を修正することに成功し、すべての非エージェント方式を大幅に上回り、StarCoder2-15B のパフォーマンスをほぼ 2 倍にしました。

GPT-4o に基づく OpenDevin エージェントは、ML-Bench で 76.47% という最高の成功率を達成しました。これは、SWE-Agent (42.64%) よりも優れています。

Gorilla APIBench は、エージェントの API 使用能力を検査します。 GPT-4o を使用した OpenDevin は 36.4% の成功率を達成し、API 呼び出し用に特に微調整されていないベースラインを上回りました。

ToolQA は、外部ツールを使用するエージェントの能力を評価します。 GPT-4o を使用した OpenDevin は、すべてのベースラインと比較して最高のパフォーマンスを示します。エージェントは、CSV およびデータベースツールの使用に関連するタスクのパフォーマンスは向上しましたが、数学および電卓ツールの使用については改善が必要でした。

表 5 に、Web ブラウジングベンチマークの評価結果を示します。

表 6 は、さまざまな補助ベンチマークの結果を示しています。

その中で、GAIA は一般的なタスクを解決するエージェントの能力を評価するために使用され、その結果、エージェントが GAIA で 32.1 のスコアを達成したことが示されており、これは元の AutoGPT よりも大幅に向上しています。

GPQA は、大学院レベルの難しい問題を解決しながら、ツールの使用を調整するエージェントの能力を評価するために使用されます。結果を表 6 と 7 に示します。OpenDevin は、複数のツールと Web 検索の使用をサポートする機能を統合し、エージェントが複雑な複数ステップの問題をより適切に解決できるようにします。

その他の結果については、元の論文を参照してください。

以上がOpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。これは、WTIの調査結果によって強調されています。従業員の68％がワークロードに苦労しており、BURにつながります

AIは理解できますか？中国の部屋の議論はノーと言っていますが、それは正しいですか？Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論：AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーしますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP：AIシステムに外部ツールにアクセスできるようになりますモデルコンテキストプロトコル（MCP）により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者：Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール：画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決しますエージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

（注：Googleは私の会社であるMoor Insights＆Strategyのアドバイザリークライアントです。） AI：実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。