搜索
首页科技周边人工智能谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风头,堪称 AI 界的「汪峰」。

具体来说,谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型(涉及文本、视频、音频),性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征。它能够稳定处理高达 100 万 token(相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词),极限为 1000 万 token(相当于《指环王》三部曲),创下了最长上下文窗口的纪录。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

此外,它还能仅凭一本 500 页的语法书、 2000 条双语词条和 400 个额外的平行句子来学习一门小语种的翻译(网络上没有相关资料),在翻译方面达到接近人类学习者的水平。

许多使用 Gemini 1.5 Pro 的人都认为这款模型被低估了。有人进行实验,将从 Github 下载的完整代码库和相关问题一并输入到 Gemini 1.5 Pro 中,结果令人惊讶:它不仅理解了整个代码库,还能识别出最紧急的问题并对其进行修复。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

在另一项与代码相关的测试中,Gemini 1.5 Pro 展现出了出色的搜索功能,能够快速在代码库中找到最相关的示例。此外,它还展示了很强的理解能力,能够准确找到控制动画的代码,并提供个性化的代码建议。同样,Gemini 1.5 Pro 还展现了卓越的跨模式能力,通过截图能够准确地找到演示内容,并提供指导以编辑图像代码。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

这样一个模型,理应引起大家的重视。而且,值得注意的是,Gemini 1.5 Pro 展现出的处理超长上下文的能力也让不少研究者开始思考,传统的 RAG 方法还有存在的必要吗?

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

一位 X 网友表示,在他进行的一个测试中,支持超长上下文的 Gemini 1.5 Pro 确实做到了 RAG 做不到的事情。

RAG 要被长上下文模型杀死了?

「一个拥有 1000 万 token 上下文窗口的模型让大多数现有的 RAG 框架都变得不那么必要了,也就是说,1000 万 token 上下文杀死了 RAG,」爱丁堡大学博士生符尧在评价 Gemini 1.5 Pro 的帖子中写到。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?


谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

RAG 是「Retrieval-Augmented Generation」的缩写,中文可以翻译为「检索增强生成」。RAG 通常包括两个阶段:检索上下文相关信息和使用检索到的知识指导生成过程。举个例子,作为一名员工,你可以直接问大模型「我们公司对迟到有什么惩罚措施?」在没有读过《员工手册》的情况下,大模型没有办法回答。但是,借助 RAG 方法,我们可以先让一个检索模型到《员工手册》里去寻找最相关的几个答案,然后把你的问题和它找到的相关答案都送到生成模型中,让大模型生成答案。这就解决了之前很多大模型上下文窗口不够大(比如容不下《员工手册》)的问题,但 RAGfangfa 在捕捉上下文之间细微联系等方面有所欠缺。

符尧认为,如果一个模型可以直接处理 1000 万 token 的上下文信息,就没有必要再通过额外的检索步骤来寻找和整合相关信息了。用户可以直接将他们需要的所有数据作为上下文放入模型中,然后像往常一样与模型进行交互。「大型语言模型本身已经是一个非常强大的检索器,为什么还要费力建立一个弱小的检索器,并在分块、嵌入、索引等方面耗费大量工程精力呢?」他继续写到。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

不过,符尧的观点遭到了很多研究者的反驳。他表示,其中很多反驳都是合理的,他也将这些意见系统梳理了一下:

1、成本问题:批评者指出,RAG 比长上下文模型便宜。符尧承认这一点,但他比较了不同技术的发展历程,指出虽然低成本模型(如 BERT-small 或 n-gram)确实便宜,但在 AI 发展的历史中,先进技术的成本最终都会降低。他的观点是,首先追求智能模型的性能,然后再通过技术进步降低成本,因为让智能模型变得便宜比让便宜模型变得智能要容易得多。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

2、检索与推理的整合:符尧强调,长上下文模型能够在整个解码过程中混合检索和推理,而 RAG 仅在开始时进行检索。长上下文模型可以在每一层、每一个 token 进行检索,这意味着模型能够根据初步推理的结果动态决定需要检索的信息,实现更紧密的检索与推理整合。

3、支持的 token 数量:尽管 RAG 支持的 token 数量达到了万亿级别,而长上下文模型目前支持的是百万级别,符尧认为,在自然分布的输入文档中,大多数需要检索的情况都在百万级别以下。他以法律文档分析和学习机器学习为例,认为这些情况下的输入量并不会超过百万级别。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

4、缓存机制:关于长上下文模型需要重新输入整个文档的问题,符尧指出存在所谓的 KV(键值)缓存机制,可以设计复杂的缓存和内存层次结构,使得输入只需读取一次,后续查询可以重用 KV 缓存。他还提到,尽管 KV 缓存可能很大,但他对未来会出现高效的 KV 缓存压缩算法持乐观态度。

5、调用搜索引擎的需求:他承认,在短期内,调用搜索引擎进行检索仍然是必要的。然而,他提出了一个大胆的设想,即让语言模型直接访问整个谷歌搜索索引,从而吸收全部信息,这体现了对 AI 技术未来潜力的极大想象力。

6、性能问题:符尧承认目前的 Gemini 1.5 在处理 1M 上下文时速度较慢,但他对提速持乐观态度,认为未来长上下文模型的速度将大大提升,最终可能达到与 RAG 相当的速度。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

除了符尧,其他很多研究者也在 X 平台上发表了自己对于 RAG 前景的看法,比如 AI 博主 @elvis。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

总体来看,他不认为长上下文模型能取代 RAG,理由包括:

1、特定数据类型的挑战:@elvis 提出了一种情景,即数据具有复杂结构、定期变化,并且具有重要的时间维度(例如代码编辑 / 更改和网络日志)。这种类型的数据可能与历史数据点相连,并且将来可能连接更多数据点。@elvis 认为,今天的长上下文语言模型单独无法处理依赖于此类数据的用例,因为这些数据对于 LLM 来说可能太复杂,且当前的最大上下文窗口对于此类数据来说并不可行。在处理此类数据时,最终可能需要某种巧妙的检索机制。

2、对动态信息的处理:今天的长上下文 LLM 在处理静态信息(如书籍、视频录像、PDF 等)方面表现出色,但在处理高度动态的信息和知识方面尚未经过实战测试。@elvis 认为,虽然我们将朝着解决一些挑战(如「lost in the middle」)以及处理更复杂的结构化和动态数据方面取得进展,但我们仍有很长的路要走。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

3、@elvis 提出,为了解决这些类型的问题,可以将 RAG 和长上下文 LLM 结合起来,构建一个强大的系统,有效且高效地检索和分析关键的历史信息。他强调,即使这样,在许多情况下也可能不足够。特别是因为大量数据可能会迅速变化,基于 AI 的智能体增加了更多的复杂性。@elvis 认为,对于复杂的用例,很可能会结合这些想法,而不是通用或长上下文 LLM 取代一切。

4、对不同类型 LLM 的需求:@elvis 指出,不是所有数据都是静态的,很多数据都是动态的。在考虑这些应用时,需要记住大数据的三个 V:速度(velocity)、体量(volume)和多样性(variety)。@elvis 通过在搜索公司的工作经验学到了这一课。他认为,不同类型的 LLM 将帮助解决不同类型的问题,我们需要摒弃一个 LLM 将统治一切的想法。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

@elvis 最后引用了 Oriol Vinyals(谷歌 DeepMind 的研究副总裁)的话,指出即使现在我们能够处理 100 万或更多 token 的上下文,RAG 的时代还远未结束。实际上,RAG 具有一些非常好的特性。这些特性不仅可以通过长上下文模型得到增强,而且长上下文模型也可以通过 RAG 得到增强。RAG 允许我们找到相关的信息,但是模型访问这些信息的方式可能由于数据压缩而变得过于受限。长上下文模型可以帮助弥补这一差距,这有点类似于现代 CPU 中 L1/L2 缓存和主内存是如何协同工作的。在这种协作模式下,缓存和主内存各自承担不同的角色,但又相互补充,从而提高了处理速度和效率。同样,RAG 和长上下文的结合使用,可以实现更灵活、更高效的信息检索和生成,充分利用各自的优势来处理复杂的数据和任务。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

看来,「RAG 的时代是否即将终结」还没有定论。但很多人都表示,作为一个超长上下文窗口模型,Gemini 1.5 Pro 确实被低估了。@elvis 也给出了他的测试结果。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

Gemini 1.5 Pro 初步测评报告

长文档分析能力

为了展示 Gemini 1.5 Pro 处理和分析文档的能力,@elvis 从一个非常基本的问题解答任务开始。他上传了一个 PDF 文件,并提出了一个简单的问题:这篇论文是关于什么的?

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

模型的回复准确而简洁,因为它提供了可接受的 Galactica 论文摘要。上面的示例使用的是 Google AI Studio 中的自由格式提示,但你也可以使用聊天格式与上传的 PDF 进行交互。如果你有很多问题想从所提供的文档中得到解答,这是一项非常有用的功能。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

为了充分利用长上下文窗口,@elvis 接下来上传了两个 PDF 进行测试,并提出了一个跨越两个 PDF 的问题。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

Gemini 1.5 Pro 给出的答复是合理的。有趣的是,从第一篇论文(关于 LLM 的综述论文)中提取的信息来自一个表格。「架构」信息看起来也是正确的。但是,「性能」部分并不属于这部分,因为第一篇论文中没有这部分内容。在这项任务中,重要的是要把提示「Please list the facts mentioned in the first paper about the large language model introduced in the second paper」放在最上面,并在论文上标注标签,如「Paper 1」和「Paper 2」 。本实验的另一个相关后续任务是通过上传一组论文和如何总结这些论文的说明来撰写相关工作。另一项有趣的任务是要求模型将较新的 LLM 论文写进综述。

视频理解

Gemini 1.5 Pro 从一开始就接受了多模态数据的训练。@elvis 用 Andrej Karpathy 最近的 LLM 讲座视频测试了一些提示:

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

他要求模型完成的第二项任务是提供一份简明扼要的讲座提纲(篇幅为一页)。回答如下(为简洁起见作了编辑):

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

Gemini 1.5 Pro 给出的摘要非常简洁,很好地概括了讲座内容和要点。

当具体细节非常重要时,请注意模型有时可能会产生「幻觉」,或由于各种原因检索到错误信息。例如,当向模型询问以下问题时:「What are the FLOPs reported for Llama 2 in the lecture?」,它的回答是「The lecture reports that training Llama 2 70B required approximately 1 trillion FLOPs」,这是不准确的。正确的回答应该是「~1e24 FLOPs」。技术报告中包含了许多例子,说明当被问及有关视频的具体问题时,这些长上下文模型会出现失误。

下一项任务是从视频中提取表格信息。测试结果表明,该模型能生成表格,其中一些细节正确,一些细节错误。例如,表格的列是正确的,但其中一行的标签是错误的(即 Concept Resolution 应该是 Coref Resolution)。测试者用其他表格和其他不同元素(如文本框)测试了其中一些提取任务,也发现了类似的不一致性。

技术报告中记录的一个有趣的例子是,模型能够根据特定场景或时间戳从视频中检索细节。在第一个例子中,测试者向模型询问某个部分是从哪里开始的。模型回答正确。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

在下一个示例中,他要求模型解释幻灯片中的一个图表。该模型似乎很好地利用了所提供的信息来解释图表中的结果。

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

下面是相应幻灯片的快照:

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

@elvis 表示,他已经开始着手进行第二轮测试,感兴趣的同学可以去 X 平台上围观。

以上是谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具