理解GraphRAG（一）：RAG的挑战-人工智能-PHP中文网

首页

科技周边

人工智能

理解GraphRAG（一）：RAG的挑战

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 30, 2024 pm 07:10 PM

llmrag

RAG（Risk Assessment Grid）是一种通过外部知识源增强现有大型语言模型（LLM）的方法，以提供和上下文更相关的答案。在RAG中，检索组件获取额外的信息，响应基于特定来源，然后将这些信息输入到LLM提示中，以使LLM的响应基于这些信息（增强阶段）。与其他技术（例如微调）相比，RAG更经济。它还有减少幻觉的优势，通过基于这些信息（增强阶段）提供额外的上下文——你RAG成为今天LLM任务的（如推荐、文本提取、情感分析等）的流程方法。

理解GraphRAG（一）：RAG的挑战

如果我们进一步分解这个想法，根据用户意图，我们通常会查询一个向量数据库。向量数据库使用连续的向量空间来捕捉两个概念之间的关系，使用基于接近度的搜索。

向量数据库概述

在向量空间中，无论是文本、图像、音频还是任何其他类型的信息，都被转换为向量。向量是数据在高维空间的数值表示。每个维度对应数据的一个特征，每个维度中的值反映了该特征的强度或存在。通过向量表示，我们可以对数据进行数学运算、距离计算和相似度比较等操作。不同维度对应的值反映了该特征的强度或存在与否。以文本数据为例，可以将每个文档表示为一个向量，其中每个维度表示一个单词在文档中的出现频率。这样，两个文档可以通过计算它们的向量之间的距离来

在数据库中进行基于接近度的搜索，涉及并使用另一个向量查询这些数据库，并搜索在向量空间中“接近”它的向量。向量之间的接近度通常由距离度量来确定，例如欧几里得距离、余弦相似度或曼哈顿距离。向量之间的接近度通常由距离度量来确定，例如欧几里得距离、余弦相似度或曼哈顿距离。

当您在向数据库中执行搜索时，您提供了一个系统将其转换为向量的查询。然后数据库计算该查询向量与数据库中已存储的向量之间的距离或相似性。接近查询向量的向量（根据所选择度量）被认为是最相关的结果。这些最接近查询向量的向量（根据所选度量）被认为是最相关的结果。

基于接近度的搜索在向量数据库中特别强大，适用于推荐系统、信息检索和异常检测等任务。

这种方法使系统能够更直观地运行，并通过理解数据中的上下文和深层含义，更有效地响应用户查询，而不仅仅依赖于表面匹配。

然而，在应用程序连接到数据库进行高级搜索方面存在一些限制，例如数据质量、处理动态知识的能力以及透明度。

RAG的限制

根据文档的大小，RAG大致分为三类：如果文档很小，可以上下文访问；如果文档很大（或有多个文档），在查询时生成较小的块，这些块被索引并用于响应查询。

尽管取得了成功，RAG也有一些缺点。

衡量RAG性能的两个主要指标是困惑度和幻觉，困惑度代表在文本生成过程中同等可能的下一个词的选择数量。即语言模型在其选择上的“困惑”程度。幻觉是AI做出的不真实或想象的陈述。

虽然RAG有助于减少幻觉，但它并没有消除它。如果您有一个小而简洁的文档，您可以减少困惑度（因为LLM的选择很少），并减少幻觉（如果您只询问文档中的内容）。当然，另一方面是，一个单一的小文档会导致一个微不足道的应用。对于更复杂的应用，您需要一种提供更多上下文的方法。

例如，考虑单词“bark”——我们至少有两个不同的上下文：

树的上下文：“橡树粗糙的树皮保护它免受寒冷。”

狗的上下文：“邻居的狗每当有人经过他们的房子时，都会大声叫。”

提供更多上下文的一种方法是将RAG与知识图谱结合（一个GRAPHRAG）。

在知识图谱中，这些单词将与它们相关的上下文和含义连接起来。例如，“bark”将与代表“树”和“狗”的节点连接。其他连接可以指示常见动作（例如，树的“保护”、狗的“制造噪音”）或属性（例如，树的“粗糙”、狗的“响亮”）。这种结构化信息允许语言模型根据句子中的其他单词或对话的总体主题选择适当的意义。

在接下来的部分中，我们将看到RAG的局限性以及GRAPHRAG如何解决这些局限性。

原文标题：Understanding GraphRAG – 1: The challenges of RAG

原文作者：ajitjaokar

以上是理解GraphRAG（一）：RAG的挑战的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

最新的最佳及时工程技术的年度汇编Apr 10, 2025 am 11:22 AM

对于那些可能是我专栏新手的人，我广泛探讨了AI的最新进展，包括体现AI，AI推理，AI中的高科技突破，及时的工程，AI培训，AI，AI RE RE等主题

欧洲的AI大陆行动计划：Gigafactories，Data Labs和Green AIApr 10, 2025 am 11:21 AM

欧洲雄心勃勃的AI大陆行动计划旨在将欧盟确立为人工智能的全球领导者。一个关键要素是建立了AI Gigafactories网络，每个网络都有大约100,000个高级AI芯片 - 2倍的自动化合物的四倍

微软对AI代理申请的统一方法：企业的明显胜利微软最近公告的新AI代理能力清晰而统一的演讲给人留下了深刻的印象。与许多技术公告陷入困境不同

向员工出售AI策略：Shopify首席执行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。这不是短暂的趋势。这是整合到P中的新操作范式

IBM启动具有完整AI集成的Z17大型机Apr 10, 2025 am 11:18 AM

IBM的Z17大型机：集成AI用于增强业务运营上个月，在IBM的纽约总部，我收到了Z17功能的预览。以Z16的成功为基础（于2022年推出并证明持续的收入增长

5 Chatgpt提示取决于别人并完全相信自己Apr 10, 2025 am 11:17 AM

解锁不可动摇的信心，消除了对外部验证的需求！这五个CHATGPT提示将指导您完全自力更生和自我感知的变革转变。只需复制，粘贴和自定义包围

AI与您的思想危险相似Apr 10, 2025 am 11:16 AM

人工智能安全与研究公司 Anthropic 最近的一项[研究]开始揭示这些复杂过程的真相，展现出一种令人不安地与我们自身认知领域相似的复杂性。自然智能和人工智能可能比我们想象的更相似。窥探内部：Anthropic 可解释性研究 Anthropic 进行的研究的新发现代表了机制可解释性领域的重大进展，该领域旨在反向工程 AI 的内部计算——不仅仅观察 AI 做了什么，而是理解它在人工神经元层面如何做到这一点。想象一下，试图通过绘制当有人看到特定物体或思考特定想法时哪些神经元会放电来理解大脑。A