
近年来,大语言模型(LLM)及其底层的 transformer 架构已经成为了对话式 AI 的基石,并催生了广泛的消费级和企业应用程序。尽管有了长足的进步,但 LLM 使用的固定长度的上下文窗口极大地限制了对长对话或长文档推理的适用性。即使是使用最广泛的开源 LLM,它们的最大输入长度只允许支持几十条消息回复或短文档推理。
与此同时,受限于 transformer 架构的自注意力机构,简单地扩展 transformer 的上下文长度也会导致计算时间和内存成本成倍增加,这就使得全新的长上下文架构成为紧迫的研究课题。
不过,即使我们能够克服上下文缩放的计算挑战,但最近的研究却表明,长上下文模型很难有效地利用额外的上下文。
这如何解决呢?考虑到训练 SOTA LLM 所需的大量资源以及上下文缩放明显的回报递减,我们迫切需要支持长上下文的替代技术。加州大学伯克利分校的研究者在这方面有了新的进展。
在本文中,研究者探究了如何在继续使用固定上下文模型的同时,提供无限上下文的幻觉(illusion)。他们的方法借鉴了虚拟内存分页的思路,使得应用程序能够处理远超出可用内存的数据集。
基于该思路,研究者利用 LLM 智能体函数调用能力的最新进展,设计出了一个受 OS 启发、用于虚拟上下文管理的 LLM 系统 ——MemGPT。

论文主页:https://memgpt.ai/
arXiv 地址:https://arxiv.org/pdf/2310.08560.pdf
项目已经开源,在 GitHub 上已经斩获了 1.7k 的 star 量。

GitHub 地址:https://github.com/cpacker/MemGPT
方法概览
该研究从传统操作系统的分层内存管理中汲取灵感,在上下文窗口(类似于操作系统中的「主存(main memory)」)和外部存储之间有效地「分页」进出信息。MemGPT 则负责管理内存、LLM 处理模块和用户之间的控制流。这种设计允许在单个任务期间反复进行上下文修改,从而允许智能体更有效地利用其有限的上下文窗口。
MemGPT 将上下文窗口视为受限内存资源,并为 LLM 设计类似于传统操作系统中分层内存(Patterson et al., 1988)的层次结构。为了提供更长的上下文长度,该研究允许 LLM 通过「LLM OS」——MemGPT,来管理放置在其上下文窗口中的内容。MemGPT 使 LLM 能够检索上下文中丢失的相关历史数据,类似于操作系统中的页面错误。此外,智能体可以迭代地修改单个任务上下文窗口中的内容,就像进程可以重复访问虚拟内存一样。
MemGPT 能够让 LLM 在上下文窗口有限的情况下处理无界上下文,MemGPT 的组件如下图 1 所示。

MemGPT 通过函数调用协调主上下文(上下文窗口中的内容)和外部上下文之间的数据移动,MemGPT 根据当前上下文自主更新和检索。


值得注意的是,上下文窗口需要用 warning token 来标识其限制,如下图 3 所示:

实验及结果
在实验部分,研究者在两个长上下文域中来评估 MemGPT,分别是对话式智能体和文档处理。其中对于对话式智能体,他们扩展了现有的多会话聊天数据集(Xu et al. (2021)),并引入了两个新的对话任务以评估智能体在长对话中保留知识的能力。对于文档分析,他们根据 Liu et al. (2023a) 提出的任务对 MemGPT 进行基准测试,包括对长文档的问答和键值检索。
用于对话智能体的 MemGPT
当与用户对话时,智能体必须满足以下两个关键标准。
一是一致性,即智能体应保持对话的连贯性,提供的新事实、引用和事件应与用户、智能体之前的陈述保持一致。
二是参与度,即智能体应该利用用户的长期知识来个性化响应。参考之前的对话可以使对话更加自然和引人入胜。
因此,研究者根据这两个标准对 MemGPT 进行评估:
MemGPT 是否可以利用其记忆来提高对话一致性?能否记住过去交互中的相关事实、引用、事件以保持连贯性?
MemGPT 是否可以利用记忆生成更有吸引力的对话?是否自发地合并远程用户信息以个性化信息?
关于使用到的数据集,研究者在 Xu et al. (2021) 提出的多会话聊天(MSC)上对 MemGPT 和固定上下文的基线模型展开评估对比。
首先来一致性评估。研究者引入了一个基于 MSC 数据集的深层记忆检索(deep memory retrieval, DMR)任务,旨在测试对话智能体的一致性。在 DMR 中,用户向对话智能体提出一个问题,并且该问题明确引用先前的对话,预期答案范围会非常窄。具体可以参加下图 5 示例。

MemGPT 利用内存来保持一致性。下表 2 显示了 MemGPT 与固定记忆基线模型的性能对比,包括 GPT-3.5 和 GPT-4。
可以看到,MemGPT 在 LLM 判断准确度和 ROUGE-L 分数方面显著优于 GPT-3.5 和 GPT-4。MemGPT 能够利用回想记忆(Recall Memory)查询过去的对话历史,进而回答 DMR 问题,而不是依赖递归摘要来扩展上下文。

然后在「对话开场白」任务中,研究者评估智能体从先前对话积累的知识中提取引人入胜的消息并传递给用户的能力。
研究者在下表 3 中展示了 MemGPT 开场白的 CSIM 分数。结果表明,MemGPT 能够制作引人入胜的开场白,其表现可以媲美甚至超越人类手写的开场白。此外还观察到 MemGPT 倾向于制作比人类基线更长且涵盖更多角色信息的开场白。下图 6 为示例。

用于文档分析的 MemGPT
为了评估 MemGPT 分析文档的能力,研究者对 MemGPT 以及在 Liu et al. (2023a) 检索器 - 阅读器文档 QA 任务上的固定上下文基线模型进行了基准测试。
结果显示,MemGPT 能够通过查询档案存储有效地对检索器进行多次调用,从而可以扩展到更大的有效上下文长度。MemGPT 主动从档案存储中检索文档并且可以迭代地分页浏览结果,因而其可用的文档总数不再受到适用 LLM 处理器上下文窗口的文档数量的限制。
由于基于嵌入的相似性搜索的局限性,文档 QA 任务对所有方法都构成了极大的挑战。研究者观察到,MemGPT 会在检索器数据库耗尽之前停止对检索器结果进行分页操作。
此外 MemGPT 更复杂操作所创建的检索文档容量也存在权衡,如下图 7 所示,其平均准确度低于 GPT-4(高于 GPT-3.5),但可以轻松地扩展到更大的文档。

研究者还引入了一项基于合成键值检索的新任务,即嵌套键值检索(Nested Key-Value Retrieval),用以演示 MemGPT 如何对来自多个数据源的信息进行整理。
从结果来看,虽然 GPT-3.5 和 GPT-4 在原始键值任务上表现出了良好性能,但在嵌套键值检索任务中表现不佳。而 MemGPT 不受嵌套层数的影响,并能够通过函数查询重复访问存储在主内存中的键值对,来执行嵌套查找。
MemGPT 在嵌套键值检索任务上的性能,展示了其利用多个查询的组合执行多条查找的能力。

更多技术细节和实验结果请参阅原论文。
以上是把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star的详细内容。更多信息请关注PHP中文网其他相关文章!

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

本文将介绍一种通过BEVSketch布局来精确生成多视角街景图片的方法在自动驾驶领域,图像合成被广泛应用于提升下游感知任务的性能在计算机视觉领域,提升感知模型性能的一个长期存在的研究难题是通过合成图像来实现。在以视觉为中心的自动驾驶系统中,使用多视角摄像头,这个问题变得更加突出,因为有些长尾场景是永远无法收集到的根据图1(a)所示,现有的生成方法将语义分割风格的BEV结构输入生成网络,并输出合理的多视角图像。在仅根据场景级指标进行评估时,现有方法似乎能合成照片般逼真的街景图像。然而,一旦放大,我

一个普通人用一台手机就能制作电影特效的时代已经来了。最近,一个名叫Simulon的3D技术公司发布了一系列特效视频,视频中的3D机器人与环境无缝融合,而且光影效果非常自然。呈现这些效果的APP也叫Simulon,它能让使用者通过手机摄像头的实时拍摄,直接渲染出CGI(计算机生成图像)特效,就跟打开美颜相机拍摄一样。在具体操作中,你要先上传一个3D模型(比如图中的机器人)。Simulon会将这个模型放置到你拍摄的现实世界中,并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

Dreamweaver Mac版
视觉化网页开发工具

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

Dreamweaver CS6
视觉化网页开发工具

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版