搜索
首页科技周边人工智能全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

近日,国内领先的人工智能大模型公司面壁智能又放大招,联合清华大学 NLP 实验室共同研发并推出大模型「超级英雄」——XAgent

通过任务测试,XAgent 在真实复杂任务的处理能力已全面超越 AutoGPT。

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent


XAgent 在真实复杂任务处理中全面超越 AutoGPT

  • 现已在 GitHub 正式开源,地址 https://github.com/OpenBMB/XAgent
  • 案例展示地址:https://x-agent.net/
  • 博客地址:https://blog.x-agent.net

XAgent 何许「人」也?

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

XAgent 是一个可以实现自主解决复杂任务的全新 AI 智能体,以 LLM 为核心,能够理解人类指令、制定复杂计划并自主采取行动。

传统智能体通常受到人类定制规则的限制,只能在限定范围内解决问题。它们更像是为人类所用的「工具」,而不是真正的「自主智能体」,难以自主解决复杂问题。

相反,XAgent 被赋予了自主规划和决策的能力,使它能够独立运行,发现新的策略和解决方案,不受人类预设的束缚。

它的能力已全面超越 AutoGPT,在众多场景任务上展示出了惊人的自主性和复杂任务的求解能力,将 AI 智能体的智能水平提升到了一个全新高度。

那么问题又来了:它是如何实现的呢?

「左右脑」协同,双循环机制

正如人类具备「左脑」 和「右脑」,在处理复杂任务时通常从「 宏观」和「微观」 两个视角进行考虑,既要针对全局进行统筹和规划,也要从执行层面来考量。

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

相较于 AutoGPT,面壁智能和清华大学在 XAgent 的设计中创新地引入了一种「双循环机制」:

  • 外循环:负责全局任务规划,将复杂任务分解为可操作的简单任务。
  • 内循环:负责局部任务执行,专注于细节。

通过双循环机制的协作,XAgent 如同大模型领域的「超级英雄」,它在应对复杂任务的不同环节时,展现出超强的专业度和丰富的技能。

就像漫威宇宙中的「美队」,XAgent 既有全局观的领导力,也有细致入微的执行力。

在外循环中,XAgent 展现出作为一个「规划」(PlanAgent)的领导力,它会把复杂任务拆分成若干简单任务,并监督问题解决的完整过程。

首先,它将给定的复杂任务分解成更小、更易管理的「子任务」,生成「初始规划」,形成任务序列。

随后,它将逐次把每个子任务传递给内循环解决。在这个过程中,外循环会不断监督任务的进度和状态,并根据反馈对后续规划进行「迭代优化」。

在内循环中,XAgent 快速转变身份,展现出作为一个高效「执行者」(ToolAgent)的专业度,确保外循环传递的子任务达到预期。

根据子任务性质的不同,它可以从外部系统中检索工具,并针对子任务进行一步步求解。

在子任务完成后,它将生成当前子任务执行过程的反思,反馈给外循环,指示当前任务是否完成,以及任务执行中的潜在优化点。

如图所示,用户给 XAgent 提交了 iris.zip 文件,让 XAgent 对数据进行分析。

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

可以看到,XAgent 首先通过外循环将这个任务分解成了 4 个子任务:

  1. 对数据进行检查与理解;
  2. 检查系统的 Python 环境,查看相关数据分析库是否存在;
  3. 编写数据分析代码,对数据进行处理与分析;
  4. 根据 python 代码执行结果撰写分析报告。

随后,在执行每一个子任务时,XAgent 通过内循环熟练地使用文件读写、 shell 命令、python notebook 及相应 pandas、sci-kit learn、seaborn、matplotlib 等数据分析库,甚至会对数据进行可视化分析。

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

AutoGPT 在执行相同任务时,并没有制定检查 python 环境与相关库的规划,而是直接开始写代码执行,导致使用相关库时失败报错,最终也没有完成对数据的复杂分析。

人机协作:智能体交互新范式

虽然 AutoGPT 在一定程度上突破了传统 GPT 模型的局限性,但它仍然存在死循环、错误调用等执行出错的现象,需要人工干预才能解决。

而 XAgent 在设计之初就针对相关问题进行了考量,并引入了专为增强人机协作的交互机制:它可以自主与用户进行交互,并向人类发出干预和指导的请求。

对于一个智能体而言,「是否能够与人类协作」也是体现其智能程度的重要指标。

首先,XAgent 具备直观的界面,用户可以直接覆盖或修改它提出的建议,从而将 AI 效率与人类的直觉和专业知识有效结合。

其次,在面临陌生挑战的情况下,XAgent 具备「向人类寻求帮助」能力,它会向用户征求实时反馈、建议或指导,确保即使在不确定的领域,智能体也能发挥出最佳作用。

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent图片

这种交互范式,将 AI 的自主性与人类的智慧有机融合,展示了人与 XAgent 之间的全新的协作关系。

如图所示,用户想让 XAgent 帮忙推荐一些好吃的餐馆来和朋友聚会,但是却没有提供具体详细的信息。

这个时候 XAgent 可以意识到目前用户所提供的信息不够充足,难以进行推荐,于是向人类提出请求,询问用户的倾向地点、预算范围、口味喜好、有哪些忌口等等,在得到用户的反馈后从而提供了推荐的餐厅。

而 AutoGPT 则直接开始到网络上搜索餐馆信息进行推荐,最终推荐的结果地点不对,也没有考虑用户的预算,没有符合用户的需求。

高效通信语言,超强工具调用

无论「双循环」的运转机制,还是「人机协作」 的交互能力,在 XAgent 的总体设计中,面壁智能和清华团队着重考虑的是智能体的稳定、高效和安全等核心特性。

结构化的通信方式同样是建立强大、稳定智能体的重要因素之一。

XAgent 采用 Function Call 作为其内部的通信语言,具备结构化、标准化、统一化等优势。

  • 结构化:Function Call 具备清晰且严谨的格式,可以明确表述所需内容,从而最小化了潜在的错误。
  • 标准化:Function Call 可以将与外部工具的交互过程标准化,提供一种通用语言,使智能体具备使用和整合多种工具的能力,解决复杂任务。
  • 统一化:通过将信息摘要、任务规划、工具执行等所有环节转化为特定的 Function Call 形式,确保每个环节均以统一的方式进行处理,从而简化系统设计。

此外,工具调用也是评价 AI Agent 是否具备解决复杂问题的重要能力之一。

XAgent 在设计中原创了工具执行引擎 ToolServer,可以实现更安全、高效、可扩展的工具执行能力。

它在隔离的 Docker 环境中运行,确保工具执行不会危及主系统的稳定性或安全性。

这种设计带来多重好处:

  • 安全:在 Docker 容器内运行工具可以保护主系统免受潜在危害。
  • 高效:系统可以根据需求和使用模式启动、停止和重启节点,实现最佳资源使用。
  • 可扩展:方便管理代码,调试和扩展性更强。

ToolServer 的关键组件包括:ToolServerNode、ToolServerMonitor、ToolServerManager,在执行操作、节点检查、周期管理等方面提供强大的能力。

目前,XAgent 的 ToolSever 支持 FileSystemEnv、PythonNotoBook、WebEnv、ExecuteShell、RapidAPIEnv、AskHumanforHelp 等多种工具。

XAgent 不仅可以帮我们做一些简单的任务,它甚至可以帮助我们训练模型。

比如,用户希望能够对电影评论进行分析,判断一下大众对电影评价的好坏。这个时候 XAgent 会首先下载 imdb 数据集去训练一个 BERT 模型,并使用训练好的 BERT 模型对电影评论进行预测。

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

释放大模型潜力,全面超越 AutoGPT

经过在一系列任务中的测试可以看到(如下图 a、b 所示),基于 GPT-4 的 XAgent 表现效果在所有基准测试中都超过了原始的 GPT-4,并全面超越了 AutoGPT。

这些任务需要 Agent 推理规划和使用外部工具的能力,包括:用搜索引擎回答问题的能力(FreshQA+HotpotQA)、Python 编程能力(MBPP)、数学推理能力(MATH)、交互式编程能力(InterCode)、具身推理能力(ALFWorld)、真实复杂任务等。

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent图 a:XAgent 在真实复杂任务处理中全面超越 AutoGPT

全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

图 b:超越 AutoGPTXAgent 在六大 AI Agent 基准测试中全面领先 GPT-4

可以看出,XAgent 的系统设计能够充分释放 GPT-4 的基础能力,并达到极高的测试效果和人类倾向(Human Preference)。

这不仅表明 XAgent 在需要推理规划的传统 AI 测试中表现出色,而且在处理复杂的实际指令时具有更高的性能

拓展应用边界,坚实技术基础

AI Agent 的出现让整个行业看到了大模型技术的重要落地方向,无需进行复杂的 prompt 探索,就可以实现整套工作流的任务执行。

作为具有无限潜能的大模型「超级英雄」,XAgent 可以成为每一个普通的人的「个人助理」。它可以帮助我们规划日程,安排行程,管理生活和工作的时间和资源分配。

它还可以自主使用多种数据采集、处理和分析工具,全自动地完成对海量数据的分析并形成报告,帮助用户高效获取重要信息。

此外,XAgent 还能结合外部工具与自主规划算法,根据环境信息做出决策,以实现更高效和精确的任务执行。

XAgent 的研发团队是由来自面壁智能和清华大学 THUNLP 实验室的多位大模型领域的专家和学者组建。他们更像是大模型领域的「超级英雄」。

这一创新成果之所以能够成功推出,正是团队在长期的科研工作过程中构建了一系列前沿创新的大模型 Infra,坚实技术基础,拓展创新和研发的边界。

面壁智能联合清华大学 NLP 实验室、OpenBMB 开源社区打造了一个「三位一体」 的大模型产学研生态布局,提出并发布了多个大模型工具使用框架和引擎:

  • Tool Learning:大模型工具学习范式,将专业工具与大模型的优势相融合,从而在问题解决方面达到更高的准确性、效率和自主性。
  • BMTools:大模型学习引擎,是让语言模型使用扩展工具的开源仓库,同时也是开源社区构建和共享工具平台。
  • ToolLLM,大模型工具学习框架,给大模型接入 16000+ 真实 API,让大模型可以通过调用外部工具以完成更复杂的用户指令任务。
  • WebCPM,中文领域首个支持联网搜索的模型框架,填补国产大模型该领域的空白,让大模型能像人类一样在网页上实时搜索答案,提高了 AIGC 的实时性和准确性。

XAgent 拓展了 AI 智能体在执行复杂任务中的能力上限,让我们看到大模型技术融入生产和生活的前沿趋势和无限潜力。

以上是全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
微软工作趋势指数2025显示工作场所容量应变微软工作趋势指数2025显示工作场所容量应变Apr 24, 2025 am 11:19 AM

由于AI的快速整合而加剧了工作场所的迅速危机危机,要求战略转变以外的增量调整。 WTI的调查结果强调了这一点:68%的员工在工作量上挣扎,导致BUR

AI可以理解吗?中国房间的论点说不,但是对吗?AI可以理解吗?中国房间的论点说不,但是对吗?Apr 24, 2025 am 11:18 AM

约翰·塞尔(John Searle)的中国房间论点:对AI理解的挑战 Searle的思想实验直接质疑人工智能是否可以真正理解语言或具有真正意识。 想象一个人,对下巴一无所知

中国的'智能” AI助手回应微软召回的隐私缺陷中国的'智能” AI助手回应微软召回的隐私缺陷Apr 24, 2025 am 11:17 AM

与西方同行相比,中国的科技巨头在AI开发方面的课程不同。 他们不专注于技术基准和API集成,而是优先考虑“屏幕感知” AI助手 - AI T

Docker将熟悉的容器工作流程带到AI型号和MCP工具Docker将熟悉的容器工作流程带到AI型号和MCP工具Apr 24, 2025 am 11:16 AM

MCP:赋能AI系统访问外部工具 模型上下文协议(MCP)让AI应用能够通过标准化接口与外部工具和数据源交互。由Anthropic开发并得到主要AI提供商的支持,MCP允许语言模型和智能体发现可用工具并使用合适的参数调用它们。然而,实施MCP服务器存在一些挑战,包括环境冲突、安全漏洞以及跨平台行为不一致。 Forbes文章《Anthropic的模型上下文协议是AI智能体发展的一大步》作者:Janakiram MSVDocker通过容器化解决了这些问题。基于Docker Hub基础设施构建的Doc

使用6种AI街头智能策略来建立一家十亿美元的创业使用6种AI街头智能策略来建立一家十亿美元的创业Apr 24, 2025 am 11:15 AM

有远见的企业家采用的六种策略,他们利用尖端技术和精明的商业敏锐度来创造高利润的可扩展公司,同时保持控制权。本指南是针对有抱负的企业家的,旨在建立一个

Google照片更新解锁了您所有图片的惊人Ultra HDRGoogle照片更新解锁了您所有图片的惊人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改变图像增强的游戏规则 Google Photos推出了一个功能强大的Ultra HDR转换工具,将标准照片转换为充满活力的高动态范围图像。这种增强功能受益于摄影师

Descope建立AI代理集成的身份验证框架Descope建立AI代理集成的身份验证框架Apr 24, 2025 am 11:13 AM

技术架构解决了新兴的身份验证挑战 代理身份集线器解决了许多组织仅在开始AI代理实施后发现的问题,即传统身份验证方法不是为机器设计的

Google Cloud Next 2025以及现代工作的未来Google Cloud Next 2025以及现代工作的未来Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的咨询客户,Moor Insights&Strateging。) AI:从实验到企业基金会 Google Cloud Next 2025展示了AI从实验功能到企业技术的核心组成部分的演变,

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具