利用知识图谱增强RAG模型的能力和减轻大模型虚假印象-人工智能-PHP中文网

首页

科技周边

人工智能

利用知识图谱增强RAG模型的能力和减轻大模型虚假印象

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 14, 2024 pm 06:30 PM

大型语言模型向量数据库rag

在使用大型语言模型(LLM)时，幻觉是一个常见问题。尽管LLM可以生成流畅连贯的文本，但其生成的信息往往不准确或不一致。为了防止LLM产生幻觉，可以利用外部的知识来源，比如数据库或知识图谱，来提供事实信息。这样一来，LLM可以依赖这些可靠的数据源，从而生成更准确和可靠的文本内容。

向量数据库和知识图谱

利用知识图谱增强RAG模型的能力和减轻大模型虚假印象

向量数据库

向量数据库是一组表示实体或概念的高维向量。它们可以用于度量不同实体或概念之间的相似性或相关性，通过它们的向量表示进行计算。

一个向量数据库可以根据向量距离告诉你，“巴黎”和“法国”比“巴黎”和“德国”更相关。

查询向量数据库通常涉及搜索相似的向量或基于特定标准的向量检索。以下是一个查询向量数据库的简单示例。

假设有一个高维向量数据库，存储了客户配置文件。您想找到与给定参考客户相似的客户。

首先，为了将客户定义为一个向量表示，我们可以提取相关特征或属性并将其转换为向量形式。

可以使用适当的算法（如k近邻或余弦相似度）在向量数据库中进行相似度搜索，以识别最相似的邻居。

检索与确定的最近邻向量对应的客户配置文件，这些概要文件表示与参考客户相似的客户，根据定义的相似性度量。

向用户展示检索到的客户配置文件或相关信息，如姓名、人口统计数据或购买历史。

知识图谱

知识图谱是表示实体或概念及其关系(如事实、属性或类别)的节点和边的集合。基于它们的节点和边缘属性，可用于查询或推断关于不同实体或概念的事实信息。

例如，一个知识图可以根据边缘标签告诉你“巴黎”是“法国”的首都。

查询图数据库涉及遍历图结构并根据特定标准检索节点、关系或模式。

假设你有一个表示社交网络的图数据库，其中用户是节点，他们的关系表示为连接节点的边。如果为给定用户找到朋友的朋友(共同联系)，那么我们应该进行如下操作：

1、在图数据库中标识表示参考用户的节点。这可以通过查询特定的用户标识符或其他相关标准来实现。

2、使用图查询语言，例如Cypher(在Neo4j中使用)或Gremlin，从参考用户节点遍历图。指定要探索的模式或关系。

MATCH (:User {userId: ‘referenceUser’})-[:FRIEND]->()-[:FRIEND]->(fof:User) RETURN fof

这个查询从参考用户开始，沿着FRIEND关系找到另一个节点(FRIEND)，然后沿着另一个FRIEND关系找到朋友的朋友(fof)。

3、对图数据库执行查询，根据查询模式检索结果节点(朋友的朋友)，可以获得关于检索节点的特定属性或其他信息。

图数据库可以提供更高级的查询功能，包括过滤、聚合和复杂的模式匹配。具体的查询语言和语法可能会有所不同，但一般的过程涉及遍历图结构以检索符合所需标准的节点和关系。

知识图谱解决“幻觉”问题的优势

知识图谱比向量数据库提供更精确和具体的信息。向量数据库表示两个实体或概念之间的相似性或相关性，而知识图可以更好地理解它们之间的关系。例如知识图谱可以告诉你“埃菲尔铁塔”是“巴黎”的地标，而向量数据库只能表明这两个概念的相似程度，但是具体他们之间如何相关的却没有说明。

知识图支持比向量数据库更多样化、更复杂的查询。向量数据库主要可以回答基于向量距离、相似性或最近邻的查询，这些查询仅限于直接的相似性测量。而知识图可以处理基于逻辑运算符的查询，例如“具有属性Z的所有实体是什么?”或“W和V的共同范畴是什么?”这可以帮助LLM产生更多样化和有趣的文本。

知识图比向量数据库更能进行推理和推断。向量数据库只能提供存储在数据库中的直接信息。而知识图可以提供从实体或概念之间的关系派生的间接信息。例如，一个知识图谱可以根据“巴黎是法国的首都”和“法国位于欧洲”这两个事实推断出“埃菲尔铁塔位于欧洲”。这可以帮助LLM生成更具逻辑性和一致性的文本。

所以知识图谱是一个比向量数据库更好的解决方案。可以为LLM提供了更准确、相关、多样、有趣、合乎逻辑和一致的信息，使它们更可靠地生成准确和真实的文本。但这里的关键是文档文档之间需要有清晰的关系，否则知识图谱将无法捕捉到它。

但是，知识图谱的使用并没有向量数据库那么直接简单，不仅在内容的梳理(数据)，应用部署，查询生成等方面都没有向量数据库那么方便，这也影响了它在实际应用中的使用频率。所以下面我们使用一个简单的例子来介绍如何使用知识图谱构建RAG。

代码实现

我们需要使用3个主要工具/组件：

1、LlamaIndex是一个编排框架，它简化了私有数据与公共数据的集成，它提供了数据摄取、索引和查询的工具，使其成为生成式人工智能需求的通用解决方案。

2、嵌入模型将文本转换为文本所提供的一条信息的数字表示形式。这种表示捕获了所嵌入内容的语义含义，使其对于许多行业应用程序都很健壮。这里使用“thenlper/gte-large”模型。

3、需要大型语言模型来根据所提供的问题和上下文生成响应。这里使用Zephyr 7B beta模型

下面我们开始进行代码编写，首先安装包

%%capture pip install llama_index pyvis Ipython langchain pypdf

启用日志Logging Level设置为“INFO”，我们可以输出有助于监视应用程序操作流的消息

import logging import sys # logging.basicConfig(stream=sys.stdout, level=logging.INFO) logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

导入依赖项

from llama_index import (SimpleDirectoryReader,LLMPredictor,ServiceContext,KnowledgeGraphIndex) # from llama_index.graph_stores import SimpleGraphStore from llama_index.storage.storage_context import StorageContext from llama_index.llms import HuggingFaceInferenceAPI from langchain.embeddings import HuggingFaceInferenceAPIEmbeddings from llama_index.embeddings import LangchainEmbedding from pyvis.network import Network

我们使用Huggingface推理api端点载入LLM

HF_TOKEN = "api key DEEPHUB 123456" llm = HuggingFaceInferenceAPI(model_name="HuggingFaceH4/zephyr-7b-beta", token=HF_TOKEN )

首先载入嵌入模型：

embed_model = LangchainEmbedding(HuggingFaceInferenceAPIEmbeddings(api_key=HF_TOKEN,model_name="thenlper/gte-large") )

加载数据集

documents = SimpleDirectoryReader("/content/Documents").load_data() print(len(documents))  ####Output### 44

构建知识图谱索引

创建知识图谱通常涉及专业和复杂的任务。通过利用Llama Index (LLM)、KnowledgeGraphIndex和GraphStore，可以方便地任何数据源创建一个相对有效的知识图谱。

#setup the service context  service_context = ServiceContext.from_defaults(chunk_size=256,llm=llm,embed_model=embed_model )  #setup the storage context  graph_store = SimpleGraphStore() storage_context = StorageContext.from_defaults(graph_store=graph_store)  #Construct the Knowlege Graph Undex index = KnowledgeGraphIndex.from_documents( documents=documents,max_triplets_per_chunk=3,service_context=service_context,storage_context=storage_context,include_embeddings=True)

Max_triplets_per_chunk:它控制每个数据块处理的关系三元组的数量

Include_embeddings:切换在索引中包含嵌入以进行高级分析。

通过构建查询引擎对知识图谱进行查询

query = "What is ESOP?" query_engine = index.as_query_engine(include_text=True,response_mode ="tree_summarize",embedding_mode="hybrid",similarity_top_k=5,) # message_template =f"""Please check if the following pieces of context has any mention of the keywords provided in the Question.If not then don't know the answer, just say that you don't know.Stop there.Please donot try to make up an answer.  Question: {query} Helpful Answer: """ # response = query_engine.query(message_template) # print(response.response.split("")[-1].strip()) #####OUTPUT ##################### ESOP stands for Employee Stock Ownership Plan. It is a retirement plan that allows employees to receive company stock or stock options as part of their compensation. In simpler terms, it is a plan that allows employees to own a portion of the company they work for. This can be a motivating factor for employees as they have a direct stake in the company's success. ESOPs can also be a tax-efficient way for companies to provide retirement benefits to their employees.

可以看到，输出的结果已经很好了，可以说与向量数据库的结果非常一致。

最后还可以可视化我们生成的图谱，使用Pyvis库进行可视化展示

from pyvis.network import Network from IPython.display import display g = index.get_networkx_graph() net = Network(notebook=True,cdn_resources="in_line",directed=True) net.from_nx(g) net.show("graph.html") net.save_graph("Knowledge_graph.html") # import IPython IPython.display.HTML(filename="/content/Knowledge_graph.html")

利用知识图谱增强RAG模型的能力和减轻大模型虚假印象

通过上面的代码我们可以直接通过LLM生成知识图谱，这样简化了我们非常多的人工操作。如果需要更精准更完整的知识图谱，还需要人工手动检查，这里就不细说了。

数据存储，通过持久化数据，可以将结果保存到硬盘中，供以后使用。

storage_context.persist()

存储的结果如下：

利用知识图谱增强RAG模型的能力和减轻大模型虚假印象

总结

向量数据库和知识图谱的区别在于它们存储和表示数据的方法。向量数据库擅长基于相似性的操作，依靠数值向量来测量实体之间的距离。知识图谱通过节点和边缘捕获复杂的关系和依赖关系，促进语义分析和高级推理。

对于语言模型(LLM)幻觉，知识图被证明优于向量数据库。知识图谱提供了更准确、多样、有趣、有逻辑性和一致性的信息，减少了LLM产生幻觉的可能性。这种优势源于它们能够提供实体之间关系的精确细节，而不仅仅是表明相似性，从而支持更复杂的查询和逻辑推理。

在以前知识图谱的应用难点在于图谱的构建，但是现在LLM的出现简化了这个过程，使得我们可以轻松的构建出可用的知识图谱，这使得他在应用方面又向前迈出了一大步。对于RAG，知识图谱是一个非常好的应用方向。

以上是利用知识图谱增强RAG模型的能力和减轻大模型虚假印象的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

为什么大型语言模型都在使用 SwiGLU 作为激活函数？Apr 08, 2024 pm 09:31 PM

如果你一直在关注大型语言模型的架构，你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对它进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数，它结合了SWISH和GLU两者的特点。SwiGLU的中文全称是“双向门控线性单元”，它将SWISH和GLU两种激活函数进行了优化和结合，以提高模型的非线性表达能力。SWISH是一种非常普遍的激活函数，它在大语言模型中得到广泛应用，而GLU则在自然语言处理任务中表现出

使用Rag和Sem-Rag提供上下文增强AI编码助手Jun 10, 2024 am 11:08 AM

通过将检索增强生成和语义记忆纳入AI编码助手，提升开发人员的生产力、效率和准确性。译自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG，作者JanakiramMSV。虽然基本AI编程助手自然有帮助，但由于依赖对软件语言和编写软件最常见模式的总体理解，因此常常无法提供最相关和正确的代码建议。这些编码助手生成的代码适合解决他们负责解决的问题，但通常不符合各个团队的编码标准、惯例和风格。这通常会导致需要修改或完善其建议，以便将代码接受到应

知识图谱检索增强的GraphRAG(基于Neo4j代码实现）Jun 12, 2024 am 10:32 AM

图检索增强生成（GraphRAG）正逐渐流行起来，成为传统向量搜索方法的有力补充。这种方法利用图数据库的结构化特性，将数据以节点和关系的形式组织起来，从而增强检索信息的深度和上下文关联性。图在表示和存储多样化且相互关联的信息方面具有天然优势，能够轻松捕捉不同数据类型间的复杂关系和属性。而向量数据库则处理这类结构化信息时则显得力不从心，它们更专注于处理高维向量表示的非结构化数据。在RAG应用中，结合结构化化的图数据和非结构化的文本向量搜索，可以让我们同时享受两者的优势，这也是本文将要探讨的内容。构

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉Jun 11, 2024 pm 03:57 PM

大型语言模型（LLM）是在巨大的文本数据库上训练的，在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中，然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时，模型实际上停止学习。对模型进行对齐或进行指令调优，让模型学习如何充分利用这些知识，以及如何更自然地响应用户的问题。但是有时模型知识是不够的，尽管模型可以通过RAG访问外部内容，但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的，模型会遇到额外的实际知识并将其整合

可视化FAISS矢量空间并调整RAG参数提高结果精度Mar 01, 2024 pm 09:16 PM

随着开源大型语言模型的性能不断提高，编写和分析代码、推荐、文本摘要和问答(QA)对的性能都有了很大的提高。但是当涉及到QA时，LLM通常会在未训练数据的相关的问题上有所欠缺，很多内部文件都保存在公司内部，以确保合规性、商业秘密或隐私。当查询这些文件时，会使得LLM产生幻觉，产生不相关、捏造或不一致的内容。一种处理这一挑战的可行技术是检索增强生成（RAG）。它涉及通过引用训练数据源之外的权威知识库来增强响应的过程，以提升生成的质量和准确性。RAG系统包括一个检索系统，用于从语料库中检索相关文档片段

使用SPIN技术进行自我博弈微调训练的LLM的优化Jan 25, 2024 pm 12:21 PM

2024年是大型语言模型（LLM）迅速发展的一年。在LLM的训练中，对齐方法是一个重要的技术手段，其中包括监督微调（SFT）和依赖人类偏好的人类反馈强化学习（RLHF）。这些方法在LLM的发展中起到了至关重要的作用，但是对齐方法需要大量的人工注释数据。面对这一挑战，微调成为一个充满活力的研究领域，研究人员积极致力于开发能够有效利用人类数据的方法。因此，对齐方法的发展将推动LLM技术的进一步突破。加州大学最近进行了一项研究，介绍了一种名为SPIN（SelfPlayfInetuNing）的新技术。S

利用知识图谱增强RAG模型的能力和减轻大模型虚假印象Jan 14, 2024 pm 06:30 PM

在使用大型语言模型(LLM)时，幻觉是一个常见问题。尽管LLM可以生成流畅连贯的文本，但其生成的信息往往不准确或不一致。为了防止LLM产生幻觉，可以利用外部的知识来源，比如数据库或知识图谱，来提供事实信息。这样一来，LLM可以依赖这些可靠的数据源，从而生成更准确和可靠的文本内容。向量数据库和知识图谱向量数据库向量数据库是一组表示实体或概念的高维向量。它们可以用于度量不同实体或概念之间的相似性或相关性，通过它们的向量表示进行计算。一个向量数据库可以根据向量距离告诉你，“巴黎”和“法国”比“巴黎”和

构建多模态RAG系统的方法：使用CLIP和LLMJan 13, 2024 pm 10:24 PM

我们将讨论使用开源的大型语言多模态模型（LargeLanguageMulti-Modal）构建检索增强生成（RAG）系统的方法。我们的重点是在不依赖LangChain或LLlamaindex的情况下实现这一目标，以避免增加更多的框架依赖。什么是RAG在人工智能领域，检索增强生成（retrieve-augmentedgeneration,RAG）技术的出现为大型语言模型（LargeLanguageModels）带来了变革性的改进。RAG的本质是通过允许模型从外部源动态检索实时信息，从而增强人工智能

See all articles