首页 >科技周边 >人工智能 >为什么在长篇小说模型的时代仍然有意义

为什么在长篇小说模型的时代仍然有意义

PHPz原创: 2025-02-25 19:31:14883浏览

>让我们探索在越来越强大的大型语言模型（LLMS）的背景下，检索增强生成（RAG）的演变。我们将研究LLM中的进步如何影响抹布的必要性。 > rag

的简短历史抹布不是一个新概念。向LLM提供上下文以访问当前数据的想法源于2020 Facebook AI/META纸，即“检索知识密集型NLP任务的检索生成” - 预示Chatgpt于2022年11月的首次亮相。本文突出显示了LLMS的两种内存类型：

参数内存：

LLM固有的知识，在其在庞大的文本数据集上培训期间获得的知识。

非参数存储器：在提示中提供的外部上下文。
>原始纸张利用文本嵌入用于语义搜索来检索相关文档，尽管这不是抹布中文档检索的唯一方法。他们的研究表明，与单独使用LLM相比，RAG产生了更精确和事实的反应。

Chatgpt的2022年11月发布的发布可能会出现LLM的查询答案的潜力，但也突出了限制： Why Retrieval-Augmented Generation Is Still Relevant in the Era of Long-Context Language Models

有限的知识： llms无法访问其培训数据以外的信息。

> llms仅依赖培训数据和提示输入。在此范围之外的查询通常会导致捏造的响应。

抹布的上升和完善

>虽然抹布预先较早的chatgpt，但其广泛采用在2023年就大大增加了。核心概念很简单：而不是直接查询llm，而是在提示中提供相关的

上下文

，并指示LLM回答基于该上下文中的 Why Retrieval-Augmented Generation Is Still Relevant in the Era of Long-Context Language Models

。

>

该提示是LLM的答案生成的起点。 这种方法大大降低了幻觉，启用了对最新数据的访问，并促进了特定于业务的数据的使用。

rag的早期限制

>以有限上下文窗口大小为中心的初始挑战。 Chatgpt-3.5的4K令牌限制（大约3000个英语单词）限制了上下文和答案长度的数量。需要保持平衡，以避免过度漫长的上下文（限制答案的长度）或不足的上下文（有遗漏关键信息的风险）。

> Why Retrieval-Augmented Generation Is Still Relevant in the Era of Long-Context Language Models 上下文窗口的作用就像有限的黑板；更多的说明空间留下了更少的答案。

当前景观

从那时起，已经发生了重大变化，主要是关于上下文窗口大小的。诸如GPT-4O（2024年5月发行）之类的型号具有128K令牌上下文窗口，而Google的Gemini 1.5（自2024年2月以来可用）提供了一个巨大的100万个令牌窗口。

rag的转移作用

上下文窗口大小的这种增加引发了争论。有人认为，有能力将整本书包括在提示中，因此对精心选择的上下文的需求减少了。一项研究（2024年7月）甚至建议在某些情况下长期提示可能要优于抹布。

>检索增强发电或长篇小写LLM？全面的研究和混合方法
但是，一项最新的研究（2024年9月）对此进行了反对，强调了抹布的重要性，并表明先前的限制源于提示中的上下文要素的顺序。

在长篇小说语言模型的时代，

>另一项相关研究（2023年7月）强调了信息在长提示中的位置影响。

在中间丢失：语言模型如何使用长上下文

在提示开始时的
>>>信息比中间的信息更容易使用。 rag
的未来尽管上下文窗口大小的进步，但抹布仍然至关重要，这主要是由于成本考虑。更长的提示需要更多的处理能力。抹布，通过将及时尺寸限制为基本信息，大大降低了计算成本。破布的未来可能涉及从大型数据集中过滤无关的信息，以优化成本和回答质量。使用针对特定任务量身定制的较小专业模型也可能发挥重要作用。

以上是为什么在长篇小说模型的时代仍然有意义的详细内容。更多信息请关注PHP中文网其他相关文章！

less for while date include Token using Length this history input idea nlp chatgpt gpt prompt Access Prompt

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Semantically Compress Text to Save On LLM Costs下一篇：The Large Language Model Course

查看更多