首页 >后端开发 >Python教程 >如何使用免费的法学硕士模型和知识库创建您自己的 RAG

如何使用免费的法学硕士模型和知识库创建您自己的 RAG

DDD
DDD原创
2024-12-28 08:49:11271浏览

本文探讨了结合现代基于变压器的模型的简单而有效的问答系统的实现。该系统使用 T5(文本到文本传输转换器)进行答案生成,并使用句子转换器进行语义相似度匹配。

在上一篇文章中,我解释了如何使用免费的基础 LLM 模型创建带有 Web 界面的简单翻译 API。这次,让我们深入探讨使用基于免费 Transformer 的 LLM 模型和知识库构建检索增强生成 (RAG) 系统。

RAG(检索增强生成)是一种结合了两个关键组件的技术:

检索:首先,它搜索知识库(如文档、数据库等)以查找给定查询的相关信息。这通常涉及:

  • 将文本转换为嵌入(表示含义的数值向量)
  • 使用相似性度量(如余弦相似度)查找相似内容
  • 选择最相关的信息

生成: 然后它使用语言模型(如我们代码中的 T5)通过以下方式生成响应:

将检索到的信息与原始问题相结合

根据上下文创建自然语言响应

代码中:

  • SentenceTransformer 通过创建嵌入来处理检索部分
  • T5 模型通过创建答案来处理生成部分

RAG 的好处:

  • 更准确的回答,因为它们基于特定知识
  • 与纯粹的法学硕士反应相比,幻觉减少
  • 能够访问最新或特定领域的信息
  • 比纯生成更可控、更透明

系统架构概述

How to Create Your Own RAG with Free LLM Models and a Knowledge Base

该实现由一个 SimpleQASystem 类组成,该类协调两个主要组件:

  • 使用句子转换器的语义搜索系统
  • 使用 T5 的答案生成系统

您可以在这里下载最新版本的源代码:https://github.com/alexander-uspenskiy/rag_project

系统图

How to Create Your Own RAG with Free LLM Models and a Knowledge Base

RAG 项目设置指南

本指南将帮助您在 macOS 和 Windows 上设置检索增强生成 (RAG) 项目。

先决条件

对于 macOS:

安装 Homebrew(如果尚未安装):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
使用 Homebrew 安装 Python 3.8
酿造安装python@3.10
对于 Windows:
从 python.org 下载并安装 Python 3.8
安装时请务必勾选“Add Python to PATH”

项目设置

第1步:创建项目目录

macOS:

mkdir RAG_project
cd RAG_project
Windows:

mkdir RAG_project
cd RAG_project

第 2 步:设置虚拟环境

macOS:

python3 -m venv venv
源 venv/bin/activate

Windows:

python -m venv venv
venvScriptsactivate

**核心组件

  1. 初始化**
def __init__(self):
    self.model_name = 't5-small'
    self.tokenizer = T5Tokenizer.from_pretrained(self.model_name)
    self.model = T5ForConditionalGeneration.from_pretrained(self.model_name)
    self.encoder = SentenceTransformer('paraphrase-MiniLM-L6-v2')

系统使用两个主要模型进行初始化:

T5-small:用于生成答案的 T5 模型的较小版本
paraphrase-MiniLM-L6-v2:用于将文本编码为有意义的向量的句子转换器模型

2。数据集准备

def prepare_dataset(self, data: List[Dict[str, str]]):
    self.answers = [item['answer'] for item in data]
    self.answer_embeddings = []
    for answer in self.answers:
        embedding = self.encoder.encode(answer, convert_to_tensor=True)
        self.answer_embeddings.append(embedding)

数据集准备阶段:

  • 从输入数据中提取答案
  • 使用句子转换器为每个答案创建嵌入
  • 存储答案及其嵌入以便快速检索

系统如何运作

1。问题处理

当用户提交问题时,系统会执行以下步骤:

嵌入生成:使用与答案相同的句子转换器模型将问题转换为向量表示。

语义搜索:系统通过以下方式找到最相关的存储答案:

  • 计算问题嵌入和所有答案嵌入之间的余弦相似度
  • 选择相似度得分最高的答案 上下文形成:所选答案成为 T5 生成最终响应的上下文。

2。答案生成

def get_answer(self, question: str) -> str:
    # ... semantic search logic ...
    input_text = f"Given the context, what is the answer to the question: {question} Context: {context}"
    input_ids = self.tokenizer(input_text, max_length=512, truncation=True, 
                             padding='max_length', return_tensors='pt').input_ids
    outputs = self.model.generate(input_ids, max_length=50, num_beams=4, 
                                early_stopping=True, no_repeat_ngram_size=2

答案生成过程:

  • 将问题和上下文组合成 T5 的提示
  • 对输入文本进行标记,最大长度为 512 个标记
  • 使用波束搜索和以下参数生成答案:
  • max_length=50:限制答案长度
  • num_beams=4:使用 4 个光束的光束搜索
  • early_stopping=True:当所有光束到达结束标记时停止生成
  • no_repeat_ngram_size=2:防止二元组重复

3。回答清洁

def __init__(self):
    self.model_name = 't5-small'
    self.tokenizer = T5Tokenizer.from_pretrained(self.model_name)
    self.model = T5ForConditionalGeneration.from_pretrained(self.model_name)
    self.encoder = SentenceTransformer('paraphrase-MiniLM-L6-v2')
  • 删除重复的连续单词(不区分大小写)
  • 答案的第一个字母大写
  • 删除多余的空格

完整源代码

您可以在这里下载最新版本的源代码:https://github.com/alexander-uspenskiy/rag_project

def prepare_dataset(self, data: List[Dict[str, str]]):
    self.answers = [item['answer'] for item in data]
    self.answer_embeddings = []
    for answer in self.answers:
        embedding = self.encoder.encode(answer, convert_to_tensor=True)
        self.answer_embeddings.append(embedding)

内存管理:

系统明确使用CPU来避免内存问题
需要时嵌入会转换为 CPU 张量
输入长度限制为 512 个标记

错误处理:

  • 整个代码中全面的 try- except 块
  • 有意义的调试错误消息
  • 未初始化组件的验证检查

使用示例

def get_answer(self, question: str) -> str:
    # ... semantic search logic ...
    input_text = f"Given the context, what is the answer to the question: {question} Context: {context}"
    input_ids = self.tokenizer(input_text, max_length=512, truncation=True, 
                             padding='max_length', return_tensors='pt').input_ids
    outputs = self.model.generate(input_ids, max_length=50, num_beams=4, 
                                early_stopping=True, no_repeat_ngram_size=2

在终端中运行

How to Create Your Own RAG with Free LLM Models and a Knowledge Base

局限性和潜在的改进

可扩展性:

当前实现将所有嵌入保留在内存中
可以使用矢量数据库来改进大规模应用

回答质量:

严重依赖所提供答案数据集的质量
受限于T5-small的上下文窗口
可以从答案验证或置信度评分中受益

表现:

  • 对于大型应用程序,仅使用 CPU 可能会比较慢
  • 可以通过批处理进行优化
  • 可以对常见问题实现缓存

结论

该实现结合了语义搜索和基于转换器的文本生成的优势,为问答系统提供了坚实的基础。请随意使用模型参数(如 max_length、num_beams、early_stopping、no_repeat_ngram_size 等),找到更好的方法来获得更连贯和稳定的答案。虽然还有改进的空间,但当前的实现在复杂性和功能之间提供了良好的平衡,使其适合教育目的和中小型应用程序。

编码愉快!

以上是如何使用免费的法学硕士模型和知识库创建您自己的 RAG的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn