首頁 >科技週邊 >人工智慧 >Autorag:使用開源Automl優化抹布管道

Autorag:使用開源Automl優化抹布管道

William Shakespeare
William Shakespeare原創
2025-03-07 09:09:12287瀏覽

>最近幾個月,檢索型發電一代(RAG)在普及中廣受歡迎,作為一種將大型語言模型與外部知識相結合的強大技術。但是,選擇合適的抹布管道(索引,嵌入模型,塊方法,問答方法)可能會令人生畏。使用無數可能的配置,您如何確定哪種管道最適合您的數據和用例?那就是Autorag進來的地方。

學習目標

  • 了解自動架的基本原理及其如何自動化抹布管道優化。
  • >了解Autorag如何系統地評估數據的不同抹布配置。 >
  • >探索Autorag的關鍵功能,包括數據創建,管道實驗和部署。
  • 逐步進行設置和使用Autorag。
  • >發現如何使用Autorag的自動化工作流程部署表現最佳的RAG管道。

>本文是> > data Science Blogathon的一部分。 目錄的目錄

>什麼是Autorag? autorag

結論
  • 常見問題
  • 什麼是autorag?
  • autorag是一種開源,自動化的機器學習(AUTOML)工具,專注於RAG。它可以系統地測試並評估自己數據集上不同的RAG管道組件,以確定哪種配置最適合您的用例。通過自動運行實驗(以及處理數據創建,塊,QA數據集生成和管道部署之類的任務),Autorag可以節省您的時間和麻煩。
  • >

    為什麼Autorag?

    • >許多抹布管道和模塊:有許多可能的方法來配置抹布系統 - 不同的文本大小,嵌入式,提示模板,檢索器模塊等。
    • >
    • 耗時的實驗:手動測試自己數據上的每個管道都很麻煩。大多數人從不這樣做,這意味著他們可能會錯過更好的性能或更快的推斷。 為您的數據量身定制的
    • >
    • :通用基準可能無法反映管線在唯一的語料庫上的性能。 Autorag通過讓您根據自己的數據得出的真實或合成QA對來消除猜測。 鍵功能

    >

    數據創建
      :autorag允許您從自己的原始文檔,PDF文件或其他文本源創建抹布評估數據。只需上傳您的文件,將它們解析到RAW.PARQUET,將它們切成corpus.parquet,然後自動生成QA數據集。
    • > 優化
    • :Autorag自動運行實驗(超參數調諧,管道選擇等),以發現數據最佳的抹布管道。它測量了與您的QA數據集的準確性,相關性和事實正確性之類的指標,以確定表現最高的設置。
    • >部署
    • :確定了最佳管道後,Autorag便直接使部署。單個YAML配置可以將最佳管道部署在燒瓶服務器或您選擇的其他環境中。
    • >用Gradio在擁抱面孔的空間上構建
    > Autorag的用戶友好界面是使用Gradio構建的,很容易嘗試擁抱面部空間。交互式GUI意味著您不需要深厚的技術專業知識即可運行這些實驗 - 只需按照上傳數據,選擇參數並生成結果的步驟。 >

    >自動型如何優化抹布管道

    >手持QA數據集,Autorag可以自動:>

    測試多個獵犬類型

    (例如,基於向量的基於矢量,關鍵字,混合)。

    >
    • >探索不同的塊尺寸和重疊策略。
    • >評估嵌入模型(例如,OpenAi嵌入,擁抱的臉型變壓器)。
    • >調音提示模板查看哪個產生最準確或相關的答案。 >使用精確匹配,F1分數或自定義域特異性指標等指標來衡量QA數據集的性能。
    • 實驗完成後,您將擁有:
      • >>排名的管道配置列表按性能指標排序。
      • >清晰的見解模塊或參數在其中為您的數據帶來最佳結果。
      • 自動生成的最佳管道您可以直接從Autorag部署。
      • 部署最佳的抹布管道

      >準備上線時,Autorag精確部署:>

      單元配置
        :生成一個描述您的管道組件的YAML文件(reteriever,嵌入式,生成器模型等)。 在燒瓶服務器上運行
      • > :在本地或基於雲的燒瓶應用程序上託管您的最佳管道,以便於與現有軟件堆棧進行簡化集成。 >
      • gradio/hugging face空間
      • :或者,在 > no-fuss,互動demo 的gradio接口上部署在擁抱面積上。
      • > 為什麼使用Autorag? >讓我們現在看看為什麼您應該嘗試Autorag:
      通過讓Autorag處理評估多個抹布配置的繁重提升,請節省時間

      通過針對您的唯一數據和需求進行優化的管道,

      提高性能
      • >無縫集成
      • 在擁抱面孔的gradio上進行快速演示或生產部署。
      • >開源和社區驅動,因此您可以自定義或擴展以符合您的確切要求。 >
      • autorag已經在github上流行了 - 加入社區,看看該工具如何徹底改變您的抹布工作流程。 入門
      • >>在GitHub上查看Autorag:
      • 探索源代碼,文檔和社區示例。

      嘗試在擁抱面積空間時嘗試Autorag演示:一個基於gradio的演示可以供您上傳文件,創建QA數據並嘗試使用不同的管道配置進行實驗。

      >

        貢獻
      • :作為一個開放源代碼項目,Autorag歡迎PRS,發行報告和功能建議。 通過自動化數據創建,管道實驗和部署,Autorag刪除了構建抹布系統的猜測。如果您想要一種快速,可靠的方法來找到適合數據的最佳抹布配置,請給Autorag旋轉並讓結果自己說明。
      • 逐步演練
      • 數據創建工作流程,結合了您共享的屏幕截圖。本指南將幫助您解析PDF,縮小數據,生成QA數據集並為進一步的RAG實驗做準備。

        步驟1:輸入OpenAI API鍵

        • 打開Autorag接口。
        • 在“自動數據創建”部分(屏幕截圖#1)中,您會看到一個提示
        • >在文本框中粘貼API鍵,然後按Enter。
        • 輸入後,狀態應從“未設置”變為“有效”(或類似),確認密鑰已被識別。
        • >
        • 注意:Autorag不存儲或記錄您的API鍵。
        • >
        您也可以從右側選擇您的首選語言(英語,한국어,日本語)。

        步驟2:解析您的PDF文件

        >向下滾動至“ 1. parse your pdf文件”(屏幕截圖#2)。

          >單擊“上傳文件”以從計算機中選擇一個或多個PDF文檔。示例屏幕截圖顯示了一個2.1 MB PDF文件,名為66EB856E019E…IC…PDF。
        • 從下拉列表中選擇一種解析方法。
        • 常見選項包括pdfminer,pdfplumber和pymupdf。
        • >
        • 每個解析器都有優勢和局限性,因此,如果您遇到解析問題,請考慮測試多種方法。
        • >單擊“運行解析”(或等效的動作按鈕)。 Autorag將讀取您的PDF並將其轉換為一個Raw.Parquet文件。
        • 監控文本框以進行進度更新。
        • 解析完成後,單擊“下載raw.parquet”以在本地或工作空間保存結果。
        • 提示:
        • RAW.PARQUET文件是您分析的文本數據。您可以使用任何支持Parquet的工具進行檢查。
        • >

        步驟3:塊raw.parquet

        Autorag:使用開源Automl優化抹布管道移動到“ 2。塊您的raw.parquet”(屏幕截圖#3)。

        >

        >如果使用了上一個步驟,則可以選擇“使用先前的raw.parquet”來自動加載文件。否則,單擊“上傳”以帶上您自己的.parquet文件。

        >
        • 選擇塊方法:
        • >

        >令牌:由指定數量的令牌數量的塊。

        • 句子:按句子邊界劃分文本。 >
        • 語義:可能會使用基於嵌入的方法來進行塊與語義相似的文本。
        • 遞歸
        • :可以在多個層次上縮小更多顆粒狀段。
        • 現在,將滑塊(例如256個令牌)和重疊(例如32個令牌)設置為塊大小。重疊有助於跨塊邊界保存上下文。
        • > 單擊“
        • 運行塊
        ”。

        觀看
          > textbox
        • 以獲取確認或狀態更新。 完成後,“
        • >下載corpus.parquet
        • ”以獲取新塊的數據集。
        • 為什麼要塊?

          塊將您的文本分解為可管理的作品,檢索方法可以有效地處理。它可以平衡上下文與相關性,以使您的抹布系統不會超過令牌限製或稀釋主題焦點。 >

          Autorag:使用開源Automl優化抹布管道

          步驟4:從colpus.parquet

          創建一個QA數據集

          在“ 3”中。從您的corpus.parquet”部分(屏幕截圖#4)創建QA數據集,上傳或選擇您的corpus.parquet。

          選擇一個質量質量質量質量:

          >

          快速
            :優先考慮速度並降低成本,可能是以更豐富的細節為代價的。
          • 高級
          • :可能會產生更徹底的,上下文豐富的Q&A對,但可能更昂貴或更慢。
          • >
          • 選擇數據創建的模型:
          • >
          • >示例選項包括GPT-4O-MINI或GPT-4O(您的接口可能列出其他型號)。
          選擇的模型確定了問題和答案的質量和样式。

          QA對的數量:

            >
          • 滑塊通常從20到150。對於第一次運行,將其保持較小(例如20或30)以限製成本。

          批處理大小到Openai模型:>

          默認為16,意思是每個批次請求16個問答對。如果您看到速率限制錯誤,請降低它。
          • 單擊“
          運行QA Creation

          ”。狀態更新出現在文本框中。 完成後,

          >下載
          • qa.parquet
          要檢索您的自動創建Q&A數據集。

          成本警告:生成問答數據調用OpenAI API,這會產生使用費。如果您打算運行大批批量,請在OpenAI賬單頁面上監視您的使用。 >

          步驟5:使用QA數據集 現在您有:

          > corpus.parquet(您的塊狀文檔數據)

          > QA.Parquet(自動生成問答對)Autorag:使用開源Automl優化抹布管道>

          >您可以將它們饋入Autorag的評估和優化工作流程:>

          評估多個抹布配置
            - 測試不同的檢索器,塊大小和嵌入模型,以查看哪種組合最佳地回答QA.Parquet中的問題。
          • >查看性能指標
          • (確切的匹配,F1或特定域的標準)以識別最佳管道。
          • 通過單個YAML配置文件,
          >

          您最好的管道 - Autorag可以旋轉燒瓶服務器或其他端點。
          • >步驟6:加入數據創建工作室候補名單(可選)

            >

            >如果您想自動自動生成的QA數據集 - 編輯問題,濾除某些主題或添加特定領域的準則,Autorag提供了數據創建工作室。單擊“加入Data Creation Studio Waitlist”,直接在接口中註冊候補名單。

            結論

            > Autorag提供了一種簡化且自動化的方法來優化檢索型生成(RAG)管道,從而通過測試針對特定數據集量身定制的不同配置來節省寶貴的時間和精力。通過簡化數據創建,塊,QA數據集生成和管道部署,Autorag確保您可以快速識別用於用例的最有效的RAG設置。 Autorag憑藉其用戶友好的界面以及與OpenAI模型的集成,為新手和經驗豐富的用戶提供了可靠的工具,可以有效地改善抹布系統性能。

            鑰匙要點

            autorag自動化優化抹布管道以提高性能的過程。
              >它允許用戶創建和評估根據其數據需求量身定制的自定義數據集。
            • 該工具簡化了僅使用單個YAML配置來部署最佳管道。
            • > Autorag的開源自然促進了社區驅動的改進和定制。
            • 常見問題
            • > Q1。什麼是autorag,為什麼有用? AutOrag是一種開源自動工具,可通過自動化配置實驗來優化檢索型生成(RAG)管道。
            Q2。為什麼我需要提供OpenAI API鍵? Autorag使用OpenAI模型生成合成問答對,這對於評估RAG管道性能至關重要。什麼是raw.parquet文件,如何創建?當您上傳PDFS時,Autorag將文本提取到緊湊的鑲木文件中,以進行有效的處理。

            Q4。為什麼我需要縮小我的解析文本,什麼是colpus.parquet?大塊將大型文本文件分為較小的可檢索段。輸出存儲在colpus.parquet中,以獲得更好的抹布性能。 Q5。如果我的PDF是密碼保護或掃描的?加密或基於圖像的PDF需要密碼刪除或OCR處理,然後才能與Autorag一起使用。

            Q6。生成問答對的費用是多少?成本取決於語料庫的大小,問答對數和OpenAI模型選擇。從小批量開始以估算費用。

            >本文所示的媒體不歸Analytics Vidhya擁有,並由作者的酌情決定使用。

以上是Autorag:使用開源Automl優化抹布管道的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn