搜索
首页科技周边人工智能OpenDevin出技术报告了,大模型Agent开发者必读

Plateforme d'agent universelle grand modèle populaire.

En mars de cette année, « le premier ingénieur logiciel d'IA au monde » Devin a fait exploser le cercle de l'IA. Contrairement aux précédents assistants de programmation IA, Devin n'aide pas seulement à la programmation, mais peut réaliser l'ensemble du projet de développement de manière indépendante et de bout en bout.

OpenDevin出技术报告了,大模型Agent开发者必读

La naissance de Devin nous permet d'apprécier les puissantes capacités des Agents grands modèles. Bientôt, de nombreux projets open source sont apparus dans l'industrie pour tenter de le copier. Parmi eux, OpenDevin s'est démarqué et a reçu le plus d'attention.

OpenDevin est une plate-forme pour développer des agents à usage général qui interagissent avec le monde via des logiciels. Ses fonctionnalités incluent :

  • Mécanisme d'interaction entre les agents de grand modèle, les interfaces et les environnements

  • Opérations sandbox disponibles pour les agents ; Environnement de navigateur Web ;

  • Interface pour créer et exécuter du code ;

  • Support multi-agents ;

  • Actuellement, le GitHub d'OpenDevin a reçu plus de 29 000 étoiles.

Récemment, l'équipe OpenaDevin a publié un rapport technique sur cet outil.

OpenDevin出技术报告了,大模型Agent开发者必读

Adresse du rapport : https://arxiv.org/pdf/2407.16741

OpenDevin出技术报告了,大模型Agent开发者必读Dans le rapport technique, les auteurs d'OpenDevin, des chercheurs de l'Université de l'Illinois à Urbana-Champaign, de l'Université Carnegie Mellon et d'autres institutions ont présenté OpenDevin. en détail, il s'agit d'une plate-forme communautaire visant à développer des agents d'IA généraux et spécialisés qui interagissent avec le monde via des logiciels.

Plus important encore, OpenDevin n'est pas seulement un cadre conceptuel, il comprend également une implémentation complète et prête à l'emploi d'un agent, d'un environnement et d'une évaluation. Au moment de la rédaction de ce rapport, OpenDevin comprend un Agent Center dans lequel plus de 10 agents ont été implémentés, dont un puissant agent général implémenté sur la base de l'architecture CodeAct, avec des fonctionnalités supplémentaires pour la navigation Web et l'édition de code. L'interaction de l'utilisateur avec l'agent s'effectue via une interface de chat, qui visualise les opérations en cours de l'agent et permet un retour d'information en temps réel. De plus, le cadre d'évaluation prend actuellement en charge 15 critères qui peuvent être utilisés pour évaluer les performances des agents.

Architecture OpenDevin

Dans cet article, l'auteur décrit OpenDevin sous les aspects suivants : (1) comment définir et implémenter des agents (2) comment l'exécution d'actions favorise l'observation (3) comment gérer et étendre les agents couramment utilisés ; outils pour les agents Compétences ; (4) Comment combiner plusieurs agents pour résoudre des tâches.

Comment définir et implémenter un agent OpenDevin出技术报告了,大模型Agent开发者必读

Un agent peut détecter l'état de l'environnement et générer des actions à effectuer lors de la résolution de tâches spécifiées par l'utilisateur. Diffusion des statuts et des événements. Dans OpenDevin, l'état est une structure de données qui encapsule toutes les informations pertinentes permettant à un agent d'effectuer des tâches. Un élément clé de cet état est le streaming d’événements, une collection chronologique d’actions et d’observations passées.

Action. Inspiré de CodeAct, OpenDevin connecte les agents à l'environnement via un ensemble d'actions de base. Les actions IPythonRunCellAction et CmdRunAction permettent aux agents d'exécuter du code Python arbitraire et des commandes bash dans un environnement sandbox (par exemple, un système d'exploitation Linux isolé de manière sécurisée). BrowserInteractiveAction permet aux agents d'interagir avec les navigateurs Web.

Observez. Les observations décrivent les changements dans l'environnement observés par l'agent. Cela peut ou non être provoqué par une action de l'agent : il peut s'agir 1) d'une instruction en langage naturel donnée par l'utilisateur, 2) du résultat de l'exécution de l'action précédente de l'agent (par exemple, le résultat de l'exécution de code, etc.).

Mettre en œuvre de nouveaux agents. La conception de l'agent est simple mais puissante, permettant aux utilisateurs de créer et de personnaliser facilement des agents pour diverses tâches. Le cœur réside dans la fonction step, qui prend l'état actuel comme entrée et génère les actions appropriées basées sur la logique de l'agent. La figure 2 montre un exemple de code simplifié pour l'abstraction d'agent.

Observez les résultats de l'exécution des actionsOpenDevin出技术报告了,大模型Agent开发者必读

Agent Runtime fournit aux agents un espace d'action comparable à celui des développeurs de logiciels humains, permettant à OpenDevin de gérer une variété de tâches de développement de logiciels et basées sur le Web, y compris des processus de développement de logiciels complexes. , projets d'analyse de données, tâches de navigation Web, etc. Il permet aux agents d'accéder à un terminal bash pour exécuter du code et des outils de ligne de commande, d'exploiter les notebooks Jupyter pour écrire et exécuter du code à la volée et d'interagir avec un navigateur Web pour effectuer des tâches Web (par exemple, des recherches d'informations).

可扩展的智能体 - 计算机接口

作者构建了一个 AgentSkills 库,这是一个旨在增强智能体功能的工具箱,能够提供基本 bash 命令或 python 代码无法轻松获得的实用程序。

多智能体交互

OpenDevin 允许多个智能体进行交互。为了实现这一目标,作者使用了一种特殊的动作类型 AgentDelegateAction,它允许智能体将特定的子任务委托给另一个智能体。

评估

本节将 OpenDevin (以下实验结果中简写为 OD)与开源可复现的基线方法进行了比较。这 15 个基准涵盖软件工程、网页浏览等任务。

OpenDevin出技术报告了,大模型Agent开发者必读

表 3 表明,虽然 OpenDevin 智能体可能无法在每个类别中都达到最佳性能,但其设计考虑了通用性。

OpenDevin出技术报告了,大模型Agent开发者必读

表 4 报告了智能体在软件工程基准上的结果。

OpenDevin出技术报告了,大模型Agent开发者必读

具体而言:

SWE-bench 旨在评估智能体解决 GitHub 问题的能力,如 bug 报告或功能请求。如表 4 所示,本文最新版本的 CodeActAgent v1.8 ,基于 claude-3.5-sonnet,与其他专门用于软件开发的开源智能体相比,解决问题率高达 26%。

HumanEvalFix。OpenDevin CodeActAgent 成功修复了 Python 拆分中 79.3% 的错误,明显优于所有非智能体方法,几乎是 StarCoder2-15B 性能的两倍。

基于 GPT-4o 的 OpenDevin 智能体在 ML-Bench 上实现了 76.47% 的最高成功率,优于 SWE-Agent(42.64%)。

Gorilla APIBench 考察智能体使用 API 的能力。使用 GPT-4o 的 OpenDevin 的成功率为 36.4%,优于未针对 API 调用进行专门微调的基线。

ToolQA 评估智能体使用外部工具的能力。与所有基线相比,采用 GPT-4o 的 OpenDevin 表现出最高的性能。智能体在与 CSV 和数据库工具使用相关的任务上表现更好,但在数学和计算器工具使用方面需要改进。

表 5 报告了网页浏览基准的评估结果。

OpenDevin出技术报告了,大模型Agent开发者必读

表 6 报告了各种辅助基准的结果。

OpenDevin出技术报告了,大模型Agent开发者必读

其中,GAIA 用于评估智能体解决一般任务的能力,结果显示,智能体在 GAIA 上取得了 32.1 分,比原来的 AutoGPT 有了明显的提高。

GPQA 用于评估智能体在解决具有挑战性的研究生水平问题时协调使用工具的能力。结果如表 6、7 所示,OpenDevin 集成了支持多种工具使用以及 web 搜索的功能,使得智能体能够更好地解决复杂的多步骤问题。

OpenDevin出技术报告了,大模型Agent开发者必读

了解更多结果,请参考原论文。

以上是OpenDevin出技术报告了,大模型Agent开发者必读的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
易于理解的解释如何保存对话历史记录(对话日志)!易于理解的解释如何保存对话历史记录(对话日志)!May 16, 2025 am 05:41 AM

高效保存ChatGPT对话记录的多种方法 您是否曾想过保存ChatGPT生成的对话记录?本文将详细介绍多种保存方法,包括官方功能、Chrome扩展程序和截图等,助您充分利用ChatGPT对话记录。 了解各种方法的特点和步骤,选择最适合您的方式。 [OpenAI最新发布的AI代理“OpenAI Operator”介绍](此处应插入OpenAI Operator的链接) 目录 使用ChatGPT导出功能保存对话记录 官方导出功能的使用步骤 使用Chrome扩展程序保存ChatGPT日志 ChatGP

使用Chatgpt创建时间表!解释可用于创建和调整表的提示使用Chatgpt创建时间表!解释可用于创建和调整表的提示May 16, 2025 am 05:40 AM

现代社会节奏紧凑,高效的日程管理至关重要。工作、生活、学习等任务交织在一起,优先级排序和日程安排常常让人头疼不已。 因此,利用AI技术的智能日程管理方法备受关注。特别是利用ChatGPT强大的自然语言处理能力,可以自动化繁琐的日程安排和任务管理,显着提高生产力。 本文将深入讲解如何利用ChatGPT进行日程管理。我们将结合具体的案例和步骤,展示AI如何提升日常生活和工作效率。 此外,我们还会讨论使用ChatGPT时需要注意的事项,确保安全有效地利用这项技术。 立即体验ChatGPT,让您的日程

如何将chatgpt与电子表格连接!对您可以做什么的详尽解释如何将chatgpt与电子表格连接!对您可以做什么的详尽解释May 16, 2025 am 05:39 AM

我们将解释如何将Google表和Chatgpt联系起来,以提高业务效率。在本文中,我们将详细解释如何使用易于使用的“床单和文档的GPT”附加组件。无需编程知识。 通过CHATGPT和电子表格集成提高业务效率 本文将重点介绍如何使用附加组件将Chatgpt与电子表格连接。附加组件使您可以轻松地将ChatGpt功能集成到电子表格中。 gpt for shee

6个投资者对AI的预测于2025年6个投资者对AI的预测于2025年May 16, 2025 am 05:37 AM

专家们预测AI革命的未来几年,专家们预测专家们都在强调了总体趋势和模式。例如,对数据的需求很大,我们将在后面讨论。此外,对能量的需求是D

使用chatgpt进行写作!提示的提示和示例的详尽说明!使用chatgpt进行写作!提示的提示和示例的详尽说明!May 16, 2025 am 05:36 AM

Chatgpt不仅是文本生成工具,而且是一个真正的合作伙伴,可显着提高作家的创造力。通过在整个写作过程中使用chatgpt,例如初始手稿创建,构思想法和风格变化,您可以同时节省时间并提高质量。本文将详细说明在每个阶段使用Chatgpt的特定方法,以及最大化生产力和创造力的技巧。此外,我们将研究将Chatgpt与语法检查工具和SEO优化工具相结合的协同作用。通过与AI的合作,作家可以通过免费想法创造独创性

如何在chatgpt中创建图形!无需插件,因此也可以用于Excel!如何在chatgpt中创建图形!无需插件,因此也可以用于Excel!May 16, 2025 am 05:35 AM

使用chatgpt的数据可视化:从图创建到数据分析 数据可视化以易于理解的方式传达复杂信息,在现代社会中至关重要。近年来,由于AI技术的进步,使用Chatgpt的图形创建引起了人们的关注。在本文中,我们将解释如何以易于理解的方式使用Chatgpt创建图形,甚至对于初学者。我们将介绍免费版本和付费版本(Chatgpt Plus),特定创建步骤以及如何显示日语标签以及实际示例之间的差异。 使用chatgpt创建图形:从基础到高级使用 chatg

用餐盘推动现代LLM的极限?用餐盘推动现代LLM的极限?May 16, 2025 am 05:34 AM

通常,我们知道AI很大,而且越来越大。快速,越来越快。 但是,具体来说,并不是每个人都熟悉行业中一些最新的硬件和软件方法,以及它们如何促进更好的结果。人民

归档您的Chatgpt对话历史!解释保存的步骤以及如何还原归档您的Chatgpt对话历史!解释保存的步骤以及如何还原May 16, 2025 am 05:33 AM

ChatGPT对话记录管理指南:高效整理,充分利用你的知识宝库! ChatGPT对话记录是创意和知识的源泉,但不断增长的记录如何有效管理呢? 查找重要信息耗时费力?别担心!本文将详细讲解如何有效“归档”(保存和管理)你的ChatGPT对话记录。我们将涵盖官方归档功能、数据导出、共享链接以及数据利用和注意事项。 目录 ChatGPT的“归档”功能详解 ChatGPT归档功能使用方法 ChatGPT归档记录的保存位置和查看方法 ChatGPT归档记录的取消和删除方法 取消归档 删除归档 总结 Ch

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)