首页 >科技周边 >人工智能 >Autorag:使用开源Automl优化抹布管道

Autorag:使用开源Automl优化抹布管道

William Shakespeare
William Shakespeare原创
2025-03-07 09:09:12287浏览

>最近几个月,检索型发电一代(RAG)在普及中广受欢迎,作为一种将大型语言模型与外部知识相结合的强大技术。但是,选择合适的抹布管道(索引,嵌入模型,块方法,问答方法)可能会令人生畏。使用无数可能的配置,您如何确定哪种管道最适合您的数据和用例?那就是Autorag进来的地方。

学习目标

  • 了解自动架的基本原理及其如何自动化抹布管道优化。
  • >了解Autorag如何系统地评估数据的不同抹布配置。>
  • >探索Autorag的关键功能,包括数据创建,管道实验和部署。
  • 逐步进行设置和使用Autorag。
  • >发现如何使用Autorag的自动化工作流程部署表现最佳的RAG管道。

>本文是> > data Science Blogathon的一部分。 目录的目录

>什么是Autorag? autorag

结论
  • 常见问题
  • 什么是autorag?
  • autorag是一种开源,自动化的机器学习(AUTOML)工具,专注于RAG。它可以系统地测试并评估自己数据集上不同的RAG管道组件,以确定哪种配置最适合您的用例。通过自动运行实验(以及处理数据创建,块,QA数据集生成和管道部署之类的任务),Autorag可以节省您的时间和麻烦。
  • >

    为什么Autorag?

    • >许多抹布管道和模块:有许多可能的方法来配置抹布系统 - 不同的文本大小,嵌入式,提示模板,检索器模块等。
    • >
    • 耗时的实验:手动测试自己数据上的每个管道都很麻烦。大多数人从不这样做,这意味着他们可能会错过更好的性能或更快的推断。 为您的数据量身定制的
    • >
    • :通用基准可能无法反映管线在唯一的语料库上的性能。 Autorag通过让您根据自己的数据得出的真实或合成QA对来消除猜测。 键功能

    >

    数据创建
      :autorag允许您从自己的原始文档,PDF文件或其他文本源创建抹布评估数据。只需上传您的文件,将它们解析到RAW.PARQUET,将它们切成corpus.parquet,然后自动生成QA数据集。
    • > 优化
    • :Autorag自动运行实验(超参数调谐,管道选择等),以发现数据最佳的抹布管道。它测量了与您的QA数据集的准确性,相关性和事实正确性之类的指标,以确定表现最高的设置。
    • >部署
    • :确定了最佳管道后,Autorag便直接使部署。单个YAML配置可以将最佳管道部署在烧瓶服务器或您选择的其他环境中。
    • >用Gradio在拥抱面孔的空间上构建
    > Autorag的用户友好界面是使用Gradio构建的,很容易尝试拥抱面部空间。交互式GUI意味着您不需要深厚的技术专业知识即可运行这些实验 - 只需按照上传数据,选择参数并生成结果的步骤。>

    >自动型如何优化抹布管道

    >手持QA数据集,Autorag可以自动:>

    测试多个猎犬类型

    (例如,基于向量的基于矢量,关键字,混合)。

    >
    • >探索不同的块尺寸和重叠策略。
    • >评估嵌入模型(例如,OpenAi嵌入,拥抱的脸型变压器)。
    • >调音提示模板查看哪个产生最准确或相关的答案。 >使用精确匹配,F1分数或自定义域特异性指标等指标来衡量QA数据集的性能。
    • 实验完成后,您将拥有:
      • >>排名的管道配置列表按性能指标排序。
      • >清晰的见解模块或参数在其中为您的数据带来最佳结果。
      • 自动生成的最佳管道您可以直接从Autorag部署。
      • 部署最佳的抹布管道

      >准备上线时,Autorag精确部署:>

      单元配置
        :生成一个描述您的管道组件的YAML文件(reteriever,嵌入式,生成器模型等)。 在烧瓶服务器上运行
      • > :在本地或基于云的烧瓶应用程序上托管您的最佳管道,以便于与现有软件堆栈进行简化集成。>
      • gradio/hugging face空间
      • :或者,在 > no-fuss,互动demo 的gradio接口上部署在拥抱面积上。
      • > 为什么使用Autorag? >让我们现在看看为什么您应该尝试Autorag:
      通过让Autorag处理评估多个抹布配置的繁重提升,请节省时间

      通过针对您的唯一数据和需求进行优化的管道,

      提高性能
      • >无缝集成
      • 在拥抱面孔的gradio上进行快速演示或生产部署。
      • >开源和社区驱动,因此您可以自定义或扩展以符合您的确切要求。>
      • autorag已经在github上流行了 - 加入社区,看看该工具如何彻底改变您的抹布工作流程。 入门
      • >>在GitHub上查看Autorag:
      • 探索源代码,文档和社区示例。

      尝试在拥抱面积空间时尝试Autorag演示:一个基于gradio的演示可以供您上传文件,创建QA数据并尝试使用不同的管道配置进行实验。

      >

        贡献
      • :作为一个开放源代码项目,Autorag欢迎PRS,发行报告和功能建议。 通过自动化数据创建,管道实验和部署,Autorag删除了构建抹布系统的猜测。如果您想要一种快速,可靠的方法来找到适合数据的最佳抹布配置,请给Autorag旋转并让结果自己说明。
      • 逐步演练
      • 数据创建工作流程,结合了您共享的屏幕截图。本指南将帮助您解析PDF,缩小数据,生成QA数据集并为进一步的RAG实验做准备。

        步骤1:输入OpenAI API键

        • 打开Autorag接口。
        • 在“自动数据创建”部分(屏幕截图#1)中,您会看到一个提示
        • >在文本框中粘贴API键,然后按Enter。
        • 输入后,状态应从“未设置”变为“有效”(或类似),确认密钥已被识别。
        • >
        • 注意:Autorag不存储或记录您的API键。
        • >
        您也可以从右侧选择您的首选语言(英语,한국어,日本语)。

        步骤2:解析您的PDF文件

        >向下滚动至“ 1. parse your pdf文件”(屏幕截图#2)。

          >单击“上传文件”以从计算机中选择一个或多个PDF文档。示例屏幕截图显示了一个2.1 MB PDF文件,名为66EB856E019E…IC…PDF。
        • 从下拉列表中选择一种解析方法。
        • 常见选项包括pdfminer,pdfplumber和pymupdf。
        • >
        • 每个解析器都有优势和局限性,因此,如果您遇到解析问题,请考虑测试多种方法。
        • >单击“运行解析”(或等效的动作按钮)。 Autorag将读取您的PDF并将其转换为一个Raw.Parquet文件。
        • 监控文本框以进行进度更新。
        • 解析完成后,单击“下载raw.parquet”以在本地或工作空间保存结果。
        • 提示:
        • RAW.PARQUET文件是您分析的文本数据。您可以使用任何支持Parquet的工具进行检查。
        • >

        步骤3:块raw.parquet

        Autorag:使用开源Automl优化抹布管道移动到“ 2。块您的raw.parquet”(屏幕截图#3)。

        >

        >如果使用了上一个步骤,则可以选择“使用先前的raw.parquet”来自动加载文件。否则,单击“上传”以带上您自己的.parquet文件。

        >
        • 选择块方法:
        • >

        >令牌:由指定数量的令牌数量的块。

        • 句子:按句子边界划分文本。>
        • 语义:可能会使用基于嵌入的方法来进行块与语义相似的文本。
        • 递归
        • :可以在多个层次上缩小更多颗粒状段。
        • 现在,将滑块(例如256个令牌)和重叠(例如32个令牌)设置为块大小。重叠有助于跨块边界保存上下文。
        • > 单击“
        • 运行块
        ”。

        观看
          > textbox
        • 以获取确认或状态更新。 完成后,“
        • >下载corpus.parquet
        • ”以获取新块的数据集。
        • 为什么要块?

          块将您的文本分解为可管理的作品,检索方法可以有效地处理。它可以平衡上下文与相关性,以使您的抹布系统不会超过令牌限制或稀释主题焦点。>

          Autorag:使用开源Automl优化抹布管道

          步骤4:从colpus.parquet

          创建一个QA数据集

          在“ 3”中。从您的corpus.parquet”部分(屏幕截图#4)创建QA数据集,上传或选择您的corpus.parquet。

          选择一个质量质量质量质量:

          >

          快速
            :优先考虑速度并降低成本,可能是以更丰富的细节为代价的。
          • 高级
          • :可能会产生更彻底的,上下文丰富的Q&A对,但可能更昂贵或更慢。
          • >
          • 选择数据创建的模型:
          • >
          • >示例选项包括GPT-4O-MINI或GPT-4O(您的接口可能列出其他型号)。
          选择的模型确定了问题和答案的质量和样式。

          QA对的数量:

            >
          • 滑块通常从20到150。对于第一次运行,将其保持较小(例如20或30)以限制成本。

          批处理大小到Openai模型:>

          默认为16,意思是每个批次请求16个问答对。如果您看到速率限制错误,请降低它。
          • 单击“
          运行QA Creation

          ”。状态更新出现在文本框中。 完成后,

          >下载
          • qa.parquet
          要检索您的自动创建Q&A数据集。

          成本警告:生成问答数据调用OpenAI API,这会产生使用费。如果您打算运行大批批量,请在OpenAI账单页面上监视您的使用。>

          步骤5:使用QA数据集 现在您有:

          > corpus.parquet(您的块状文档数据)

          > QA.Parquet(自动生成问答对)Autorag:使用开源Automl优化抹布管道>

          >您可以将它们馈入Autorag的评估和优化工作流程:>

          评估多个抹布配置
            - 测试不同的检索器,块大小和嵌入模型,以查看哪种组合最佳地回答QA.Parquet中的问题。
          • >查看性能指标
          • (确切的匹配,F1或特定域的标准)以识别最佳管道。
          • 通过单个YAML配置文件,
          >

          您最好的管道 - Autorag可以旋转烧瓶服务器或其他端点。
          • >步骤6:加入数据创建工作室候补名单(可选)

            >

            >如果您想自动自动生成的QA数据集 - 编辑问题,滤除某些主题或添加特定领域的准则,Autorag提供了数据创建工作室。单击“加入Data Creation Studio Waitlist”,直接在接口中注册候补名单。

            结论

            > Autorag提供了一种简化且自动化的方法来优化检索型生成(RAG)管道,从而通过测试针对特定数据集量身定制的不同配置来节省宝贵的时间和精力。通过简化数据创建,块,QA数据集生成和管道部署,Autorag确保您可以快速识别用于用例的最有效的RAG设置。 Autorag凭借其用户友好的界面以及与OpenAI模型的集成,为新手和经验丰富的用户提供了可靠的工具,可以有效地改善抹布系统性能。

            钥匙要点

            autorag自动化优化抹布管道以提高性能的过程。
              >它允许用户创建和评估根据其数据需求量身定制的自定义数据集。
            • 该工具简化了仅使用单个YAML配置来部署最佳管道。
            • > Autorag的开源自然促进了社区驱动的改进和定制。
            • 常见问题
            • > Q1。什么是autorag,为什么有用? AutOrag是一种开源自动工具,可通过自动化配置实验来优化检索型生成(RAG)管道。
            Q2。为什么我需要提供OpenAI API键? Autorag使用OpenAI模型生成合成问答对,这对于评估RAG管道性能至关重要。什么是raw.parquet文件,如何创建?当您上传PDFS时,Autorag将文本提取到紧凑的镶木文件中,以进行有效的处理。

            Q4。为什么我需要缩小我的解析文本,什么是colpus.parquet?大块将大型文本文件分为较小的可检索段。输出存储在colpus.parquet中,以获得更好的抹布性能。Q5。如果我的PDF是密码保护或扫描的?加密或基于图像的PDF需要密码删除或OCR处理,然后才能与Autorag一起使用。

            Q6。生成问答对的费用是多少?成本取决于语料库的大小,问答对数和OpenAI模型选择。从小批量开始以估算费用。

            >本文所示的媒体不归Analytics Vidhya拥有,并由作者的酌情决定使用。

以上是Autorag:使用开源Automl优化抹布管道的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn