论文链接:https://arxiv.org/pdf/2309.07864.pdf LLM-based Agent 论文列表:https://github.com/WooooDyy/LLM-Agent-Paper-List
控制端:通常由 LLMs 构成,是智能代理的核心。它不仅可以存储记忆和知识,还承担着信息处理、决策等不可或缺的功能。它可以呈现推理和计划的过程,并很好地应对未知任务,反映出智能代理的泛化性和迁移性。 感知端:将智能代理的感知空间从纯文本拓展到包括文本、视觉和听觉等多模态领域,使代理能够更有效地从周围环境中获取与利用信息。 行动端:除了常规的文本输出,还赋予代理具身能力、使用工具的能力,使其能够更好地适应环境变化,通过反馈与环境交互,甚至能够塑造环境。
高质量文本生成:大量评估实验表明,LLMs 能够生成流畅、多样、新颖、可控的文本。尽管在个别语言上表现欠佳,但整体上具备良好的多语言能力。 言外之意的理解:除了直观表现出的内容,语言背后可能还传递了说话者的意图、偏好等信息。言外之意有助于代理更高效地沟通与合作,大模型已经展现出了这方面的潜力。
扩展 Backbone 架构的长度限制:针对 Transformers 固有的序列长度限制问题进行改进。 总结记忆(Summarizing):对记忆进行摘要总结,增强代理从记忆中提取关键细节的能力。 压缩记忆(Compressing):通过使用向量或适当的数据结构对记忆进行压缩,可以提高记忆检索效率。
计划制定(Plan Formulation):代理将复杂任务分解为更易于管理的子任务。例如:一次性分解再按顺序执行、逐步规划并执行、多路规划并选取最优路径等。在一些需要专业知识的场景中,代理可与特定领域的 Planner 模块集成,提升能力。 计划反思(Plan Reflection):在制定计划后,可以进行反思并评估其优劣。这种反思一般来自三个方面:借助内部反馈机制;与人类互动获得反馈;从环境中获得反馈。
对未知任务的泛化:随着模型规模与训练数据的增大,LLMs 在解决未知任务上涌现出了惊人的能力。通过指令微调的大模型在 zero-shot 测试中表现良好,在许多任务上都取得了不亚于专家模型的成绩。 情景学习(In-context Learning):大模型不仅能够从上下文的少量示例中进行类比学习,这种能力还可以扩展到文本以外的多模态场景,为代理在现实世界中的应用提供了更多可能性。 持续学习(Continual Learning):持续学习的主要挑战是灾难性遗忘,即当模型学习新任务时容易丢失过往任务中的知识。专有领域的智能代理应当尽量避免丢失通用领域的知识。
将视觉输入转为对应的文本描述(Image Captioning):可以被 LLMs 直接理解,并且可解释性高。 对视觉信息进行编码表示:以视觉基础模型 + LLMs 的范式来构成感知模块,通过对齐操作来让模型理解不同模态的内容,可以端到端的方式进行训练。
Observation 可以帮助智能代理在环境中定位自身位置、感知对象物品和获取其他环境信息; Manipulation 则是完成一些具体的抓取、推动等操作任务; Navigation 要求智能代理根据任务目标变换自身位置并根据环境信息更新自身状态。
在任务导向的部署中,代理帮助人类用户处理日常基本任务。它们需要具备基本的指令理解、任务分解、与环境交互的能力。具体来说,根据现有的任务类型,代理的实际应用又可以分为模拟网络环境与模拟生活场景。 在创新导向的部署中,代理能够在前沿科学领域展现出自主探究的潜力。虽然来自专业领域的固有复杂性和训练数据的缺乏给智能代理的构建带来了阻碍,但目前已经有许多工作在化学、材料、计算机等领域取得了进展。 在生命周期导向的部署中,代理具备在一个开放世界中不断探索、学习和使用新技能,并长久生存的能力。在本节中,作者们以《我的世界》游戏为例展开介绍。由于游戏中的生存挑战可以被认为是现实世界的一个缩影,已经有许多研究者将其作为开发和测试代理综合能力的独特平台。
当所有代理自由地表达自己的观点、看法,以一种没有顺序的方式进行合作时,称为无序合作。 当所有代理遵循一定的规则,例如以流水线的形式逐一发表自己的观点时,整个合作过程井然有序,称为有序合作。
Instructor-Executor 模式:人类作为指导者,给出指令、反馈意见;而代理作为执行者,依据指示逐步调整、优化。这种模式在教育、医疗、商业等领域得到了广泛的应用。 Equal Partnership 模式:有研究观察到代理能够在与人类的交流中表现出共情能力,或是以平等的身份参与到任务执行中。智能代理展现出在日常生活中的应用潜力,有望在未来融入人类社会。
左侧部分:在个体层面上,代理表现出多种内化行为,例如计划、推理和反思。此外,代理还显现出内在的人格特征,涵盖认知、情感和性格三个方面。 中间部分:单个代理可以与其他代理个体组成群体,共同展现出合作等群体行为,例如协同合作等。 右侧部分:环境的形式可以是虚拟的沙盒环境,也可以是真实的物理世界。环境中的要素包括了人类参与者和各类可用资源。对于单个代理而言,其他代理也属于环境的一部分。 整体互动:代理们通过感知外界环境、采取行动,积极参与整个交互过程。
个体行为构成了代理自身运作和发展的基础。包括以感知为代表的输入、行动为代表的输出,以及代理自身的内化行为。 群体行为是指两个以上代理自发交互时产生的行为。包括以协作为代表的积极行为、冲突为代表的消极行为,以及从众、旁观等中立行为。
认知(Cognitive abilities):涵盖了代理获取和理解知识的过程,研究表明,基于 LLM 的代理在某些方面能够表现出类似于人类的深思熟虑和智力水平。 情感(Emotional intelligence):涉及主观感受和情绪状态,如喜怒哀乐,以及表现出同情和共情的能力。 性格(Character portrayal):为了理解和分析 LLMs 的性格特征,研究人员利用了成熟的评测方式,如大五人格、MBTI 测试,以探究性格的多样性和复杂性。
可视化:可以使用简单的 2D 图形界面乃至复杂的 3D 建模来展示世界,以一种直观的方式刻画模拟社会的方方面面。 可扩展性:可以构建和部署各种不同的场景(Web、游戏等)进行各种实验,为代理提供了广阔的探索空间。
以上是复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来的详细内容。更多信息请关注PHP中文网其他相关文章!

使用Gemma范围探索语言模型的内部工作 了解AI语言模型的复杂性是一个重大挑战。 Google发布的Gemma Scope是一种综合工具包,为研究人员提供了一种强大的探索方式

解锁业务成功:成为商业智能分析师的指南 想象一下,将原始数据转换为驱动组织增长的可行见解。 这是商业智能(BI)分析师的力量 - 在GU中的关键作用

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

介绍 想象一个繁华的办公室,两名专业人员在一个关键项目中合作。 业务分析师专注于公司的目标,确定改进领域,并确保与市场趋势保持战略一致。 simu

Excel 数据计数与分析:COUNT 和 COUNTA 函数详解 精确的数据计数和分析在 Excel 中至关重要,尤其是在处理大型数据集时。Excel 提供了多种函数来实现此目的,其中 COUNT 和 COUNTA 函数是用于在不同条件下统计单元格数量的关键工具。虽然这两个函数都用于计数单元格,但它们的设计目标却针对不同的数据类型。让我们深入了解 COUNT 和 COUNTA 函数的具体细节,突出它们独特的特性和区别,并学习如何在数据分析中应用它们。 要点概述 理解 COUNT 和 COU

Google Chrome的AI Revolution:个性化和高效的浏览体验 人工智能(AI)正在迅速改变我们的日常生活,而Google Chrome正在领导网络浏览领域的负责人。 本文探讨了兴奋

重新构想影响:四倍的底线 长期以来,对话一直以狭义的AI影响来控制,主要集中在利润的最低点上。但是,更全面的方法认识到BU的相互联系

事情正稳步发展。投资投入量子服务提供商和初创企业表明,行业了解其意义。而且,越来越多的现实用例正在出现以证明其价值超出


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具

禅工作室 13.0.1
功能强大的PHP集成开发环境

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。