搜尋
首頁科技週邊人工智慧Autorag:使用開源Automl優化抹布管道

>最近幾個月,檢索型發電一代(RAG)在普及中廣受歡迎,作為一種將大型語言模型與外部知識相結合的強大技術。但是,選擇合適的抹布管道(索引,嵌入模型,塊方法,問答方法)可能會令人生畏。使用無數可能的配置,您如何確定哪種管道最適合您的數據和用例?那就是Autorag進來的地方。

學習目標

  • 了解自動架的基本原理及其如何自動化抹布管道優化。
  • >了解Autorag如何系統地評估數據的不同抹布配置。 >
  • >探索Autorag的關鍵功能,包括數據創建,管道實驗和部署。
  • 逐步進行設置和使用Autorag。
  • >發現如何使用Autorag的自動化工作流程部署表現最佳的RAG管道。

>本文是> > data Science Blogathon的一部分。 目錄的目錄

>什麼是Autorag? autorag

結論
  • 常見問題
  • 什麼是autorag?
  • autorag是一種開源,自動化的機器學習(AUTOML)工具,專注於RAG。它可以系統地測試並評估自己數據集上不同的RAG管道組件,以確定哪種配置最適合您的用例。通過自動運行實驗(以及處理數據創建,塊,QA數據集生成和管道部署之類的任務),Autorag可以節省您的時間和麻煩。
  • >

    為什麼Autorag?

    • >許多抹布管道和模塊:有許多可能的方法來配置抹布系統 - 不同的文本大小,嵌入式,提示模板,檢索器模塊等。
    • >
    • 耗時的實驗:手動測試自己數據上的每個管道都很麻煩。大多數人從不這樣做,這意味著他們可能會錯過更好的性能或更快的推斷。 為您的數據量身定制的
    • >
    • :通用基準可能無法反映管線在唯一的語料庫上的性能。 Autorag通過讓您根據自己的數據得出的真實或合成QA對來消除猜測。 鍵功能

    >

    數據創建
      :autorag允許您從自己的原始文檔,PDF文件或其他文本源創建抹布評估數據。只需上傳您的文件,將它們解析到RAW.PARQUET,將它們切成corpus.parquet,然後自動生成QA數據集。
    • > 優化
    • :Autorag自動運行實驗(超參數調諧,管道選擇等),以發現數據最佳的抹布管道。它測量了與您的QA數據集的準確性,相關性和事實正確性之類的指標,以確定表現最高的設置。
    • >部署
    • :確定了最佳管道後,Autorag便直接使部署。單個YAML配置可以將最佳管道部署在燒瓶服務器或您選擇的其他環境中。
    • >用Gradio在擁抱面孔的空間上構建
    > Autorag的用戶友好界面是使用Gradio構建的,很容易嘗試擁抱面部空間。交互式GUI意味著您不需要深厚的技術專業知識即可運行這些實驗 - 只需按照上傳數據,選擇參數並生成結果的步驟。 >

    >自動型如何優化抹布管道

    >手持QA數據集,Autorag可以自動:>

    測試多個獵犬類型

    (例如,基於向量的基於矢量,關鍵字,混合)。

    >
    • >探索不同的塊尺寸和重疊策略。
    • >評估嵌入模型(例如,OpenAi嵌入,擁抱的臉型變壓器)。
    • >調音提示模板查看哪個產生最準確或相關的答案。 >使用精確匹配,F1分數或自定義域特異性指標等指標來衡量QA數據集的性能。
    • 實驗完成後,您將擁有:
      • >>排名的管道配置列表按性能指標排序。
      • >清晰的見解模塊或參數在其中為您的數據帶來最佳結果。
      • 自動生成的最佳管道您可以直接從Autorag部署。
      • 部署最佳的抹布管道

      >準備上線時,Autorag精確部署:>

      單元配置
        :生成一個描述您的管道組件的YAML文件(reteriever,嵌入式,生成器模型等)。 在燒瓶服務器上運行
      • > :在本地或基於雲的燒瓶應用程序上託管您的最佳管道,以便於與現有軟件堆棧進行簡化集成。 >
      • gradio/hugging face空間
      • :或者,在 > no-fuss,互動demo 的gradio接口上部署在擁抱面積上。
      • > 為什麼使用Autorag? >讓我們現在看看為什麼您應該嘗試Autorag:
      通過讓Autorag處理評估多個抹布配置的繁重提升,請節省時間

      通過針對您的唯一數據和需求進行優化的管道,

      提高性能
      • >無縫集成
      • 在擁抱面孔的gradio上進行快速演示或生產部署。
      • >開源和社區驅動,因此您可以自定義或擴展以符合您的確切要求。 >
      • autorag已經在github上流行了 - 加入社區,看看該工具如何徹底改變您的抹布工作流程。 入門
      • >>在GitHub上查看Autorag:
      • 探索源代碼,文檔和社區示例。

      嘗試在擁抱面積空間時嘗試Autorag演示:一個基於gradio的演示可以供您上傳文件,創建QA數據並嘗試使用不同的管道配置進行實驗。

      >

        貢獻
      • :作為一個開放源代碼項目,Autorag歡迎PRS,發行報告和功能建議。 通過自動化數據創建,管道實驗和部署,Autorag刪除了構建抹布系統的猜測。如果您想要一種快速,可靠的方法來找到適合數據的最佳抹布配置,請給Autorag旋轉並讓結果自己說明。
      • 逐步演練
      • 數據創建工作流程,結合了您共享的屏幕截圖。本指南將幫助您解析PDF,縮小數據,生成QA數據集並為進一步的RAG實驗做準備。

        步驟1:輸入OpenAI API鍵

        • 打開Autorag接口。
        • 在“自動數據創建”部分(屏幕截圖#1)中,您會看到一個提示
        • >在文本框中粘貼API鍵,然後按Enter。
        • 輸入後,狀態應從“未設置”變為“有效”(或類似),確認密鑰已被識別。
        • >
        • 注意:Autorag不存儲或記錄您的API鍵。
        • >
        您也可以從右側選擇您的首選語言(英語,한국어,日本語)。

        步驟2:解析您的PDF文件

        >向下滾動至“ 1. parse your pdf文件”(屏幕截圖#2)。

          >單擊“上傳文件”以從計算機中選擇一個或多個PDF文檔。示例屏幕截圖顯示了一個2.1 MB PDF文件,名為66EB856E019E…IC…PDF。
        • 從下拉列表中選擇一種解析方法。
        • 常見選項包括pdfminer,pdfplumber和pymupdf。
        • >
        • 每個解析器都有優勢和局限性,因此,如果您遇到解析問題,請考慮測試多種方法。
        • >單擊“運行解析”(或等效的動作按鈕)。 Autorag將讀取您的PDF並將其轉換為一個Raw.Parquet文件。
        • 監控文本框以進行進度更新。
        • 解析完成後,單擊“下載raw.parquet”以在本地或工作空間保存結果。
        • 提示:
        • RAW.PARQUET文件是您分析的文本數據。您可以使用任何支持Parquet的工具進行檢查。
        • >

        步驟3:塊raw.parquet

        Autorag:使用開源Automl優化抹布管道移動到“ 2。塊您的raw.parquet”(屏幕截圖#3)。

        >

        >如果使用了上一個步驟,則可以選擇“使用先前的raw.parquet”來自動加載文件。否則,單擊“上傳”以帶上您自己的.parquet文件。

        >
        • 選擇塊方法:
        • >

        >令牌:由指定數量的令牌數量的塊。

        • 句子:按句子邊界劃分文本。 >
        • 語義:可能會使用基於嵌入的方法來進行塊與語義相似的文本。
        • 遞歸
        • :可以在多個層次上縮小更多顆粒狀段。
        • 現在,將滑塊(例如256個令牌)和重疊(例如32個令牌)設置為塊大小。重疊有助於跨塊邊界保存上下文。
        • > 單擊“
        • 運行塊
        ”。

        觀看
          > textbox
        • 以獲取確認或狀態更新。 完成後,“
        • >下載corpus.parquet
        • ”以獲取新塊的數據集。
        • 為什麼要塊?

          塊將您的文本分解為可管理的作品,檢索方法可以有效地處理。它可以平衡上下文與相關性,以使您的抹布系統不會超過令牌限製或稀釋主題焦點。 >

          Autorag:使用開源Automl優化抹布管道

          步驟4:從colpus.parquet

          創建一個QA數據集

          在“ 3”中。從您的corpus.parquet”部分(屏幕截圖#4)創建QA數據集,上傳或選擇您的corpus.parquet。

          選擇一個質量質量質量質量:

          >

          快速
            :優先考慮速度並降低成本,可能是以更豐富的細節為代價的。
          • 高級
          • :可能會產生更徹底的,上下文豐富的Q&A對,但可能更昂貴或更慢。
          • >
          • 選擇數據創建的模型:
          • >
          • >示例選項包括GPT-4O-MINI或GPT-4O(您的接口可能列出其他型號)。
          選擇的模型確定了問題和答案的質量和样式。

          QA對的數量:

            >
          • 滑塊通常從20到150。對於第一次運行,將其保持較小(例如20或30)以限製成本。

          批處理大小到Openai模型:>

          默認為16,意思是每個批次請求16個問答對。如果您看到速率限制錯誤,請降低它。
          • 單擊“
          運行QA Creation

          ”。狀態更新出現在文本框中。 完成後,

          >下載
          • qa.parquet
          要檢索您的自動創建Q&A數據集。

          成本警告:生成問答數據調用OpenAI API,這會產生使用費。如果您打算運行大批批量,請在OpenAI賬單頁面上監視您的使用。 >

          步驟5:使用QA數據集 現在您有:

          > corpus.parquet(您的塊狀文檔數據)

          > QA.Parquet(自動生成問答對)Autorag:使用開源Automl優化抹布管道>

          >您可以將它們饋入Autorag的評估和優化工作流程:>

          評估多個抹布配置
            - 測試不同的檢索器,塊大小和嵌入模型,以查看哪種組合最佳地回答QA.Parquet中的問題。
          • >查看性能指標
          • (確切的匹配,F1或特定域的標準)以識別最佳管道。
          • 通過單個YAML配置文件,
          >

          您最好的管道 - Autorag可以旋轉燒瓶服務器或其他端點。
          • >步驟6:加入數據創建工作室候補名單(可選)

            >

            >如果您想自動自動生成的QA數據集 - 編輯問題,濾除某些主題或添加特定領域的準則,Autorag提供了數據創建工作室。單擊“加入Data Creation Studio Waitlist”,直接在接口中註冊候補名單。

            結論

            > Autorag提供了一種簡化且自動化的方法來優化檢索型生成(RAG)管道,從而通過測試針對特定數據集量身定制的不同配置來節省寶貴的時間和精力。通過簡化數據創建,塊,QA數據集生成和管道部署,Autorag確保您可以快速識別用於用例的最有效的RAG設置。 Autorag憑藉其用戶友好的界面以及與OpenAI模型的集成,為新手和經驗豐富的用戶提供了可靠的工具,可以有效地改善抹布系統性能。

            鑰匙要點

            autorag自動化優化抹布管道以提高性能的過程。
              >它允許用戶創建和評估根據其數據需求量身定制的自定義數據集。
            • 該工具簡化了僅使用單個YAML配置來部署最佳管道。
            • > Autorag的開源自然促進了社區驅動的改進和定制。
            • 常見問題
            • > Q1。什麼是autorag,為什麼有用? AutOrag是一種開源自動工具,可通過自動化配置實驗來優化檢索型生成(RAG)管道。
            Q2。為什麼我需要提供OpenAI API鍵? Autorag使用OpenAI模型生成合成問答對,這對於評估RAG管道性能至關重要。什麼是raw.parquet文件,如何創建?當您上傳PDFS時,Autorag將文本提取到緊湊的鑲木文件中,以進行有效的處理。

            Q4。為什麼我需要縮小我的解析文本,什麼是colpus.parquet?大塊將大型文本文件分為較小的可檢索段。輸出存儲在colpus.parquet中,以獲得更好的抹布性能。 Q5。如果我的PDF是密碼保護或掃描的?加密或基於圖像的PDF需要密碼刪除或OCR處理,然後才能與Autorag一起使用。

            Q6。生成問答對的費用是多少?成本取決於語料庫的大小,問答對數和OpenAI模型選擇。從小批量開始以估算費用。

            >本文所示的媒體不歸Analytics Vidhya擁有,並由作者的酌情決定使用。

以上是Autorag:使用開源Automl優化抹布管道的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代May 02, 2025 am 11:17 AM

動盪遊戲:與AI代理商的遊戲開發徹底改變 Roupheaval是一家遊戲開發工作室,由暴風雪和黑曜石等行業巨頭的退伍軍人組成,有望用其創新的AI驅動的Platfor革新遊戲創作

Uber想成為您的Robotaxi商店,提供商會讓他們嗎?Uber想成為您的Robotaxi商店,提供商會讓他們嗎?May 02, 2025 am 11:16 AM

Uber的Robotaxi策略:自動駕駛汽車的騎車生態系統 在最近的Curbivore會議上,Uber的Richard Willder推出了他們成為Robotaxi提供商的乘車平台的策略。 利用他們在

AI代理玩電子遊戲將改變未來的機器人AI代理玩電子遊戲將改變未來的機器人May 02, 2025 am 11:15 AM

事實證明,視頻遊戲是最先進的AI研究的寶貴測試理由,尤其是在自主代理商和現實世界機器人的開發中,甚至有可能促進人工通用情報(AGI)的追求。 一個

創業公司工業綜合體VC 3.0和James Currier的宣言創業公司工業綜合體VC 3.0和James Currier的宣言May 02, 2025 am 11:14 AM

不斷發展的風險投資格局的影響在媒體,財務報告和日常對話中顯而易見。 但是,對投資者,初創企業和資金的具體後果經常被忽略。 風險資本3.0:範式

Adobe在Adobe Max London 2025更新創意云和螢火蟲Adobe在Adobe Max London 2025更新創意云和螢火蟲May 02, 2025 am 11:13 AM

Adobe Max London 2025對Creative Cloud和Firefly進行了重大更新,反映了向可訪問性和生成AI的戰略轉變。 該分析結合了事件前簡報中的見解,並融合了Adobe Leadership。 (注意:Adob

Llamacon宣布的所有元數據Llamacon宣布的所有元數據May 02, 2025 am 11:12 AM

Meta的Llamacon公告展示了一項綜合的AI策略,旨在直接與OpenAI等封閉的AI系統競爭,同時為其開源模型創建了新的收入流。 這個多方面的方法目標bo

關於AI僅僅是普通技術的主張的釀造爭議關於AI僅僅是普通技術的主張的釀造爭議May 02, 2025 am 11:10 AM

人工智能領域對這一論斷存在嚴重分歧。一些人堅稱,是時候揭露“皇帝的新衣”了,而另一些人則強烈反對人工智能僅僅是普通技術的觀點。 讓我們來探討一下。 對這一創新性人工智能突破的分析,是我持續撰寫的福布斯專欄文章的一部分,該專欄涵蓋人工智能領域的最新進展,包括識別和解釋各種有影響力的人工智能複雜性(請點擊此處查看鏈接)。 人工智能作為普通技術 首先,需要一些基本知識來為這場重要的討論奠定基礎。 目前有大量的研究致力於進一步發展人工智能。總目標是實現人工通用智能(AGI)甚至可能實現人工超級智能(AS

模型公民,為什麼AI值是下一個業務碼模型公民,為什麼AI值是下一個業務碼May 02, 2025 am 11:09 AM

公司AI模型的有效性現在是一個關鍵的性能指標。自AI BOOM以來,從編寫生日邀請到編寫軟件代碼的所有事物都將生成AI使用。 這導致了語言mod的擴散

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。