搜尋
首頁科技週邊人工智慧抹布系統的8種類型的塊 - 分析Vidhya

>解鎖在檢索型發電一代(抹布)中塊的力量:深度潛水

有效地處理大量文本數據對於構建強大而有效的檢索生成(RAG)系統至關重要。 本文探討了各種構成策略,對於優化數據處理和改善AI驅動應用程序的性能至關重要。 我們將深入研究不同的方法,強調他們的優勢和劣勢,並提供實用的例子。 目錄的

抹布中有什麼塊?
    >
  • 塊的重要性
  • 了解抹布架構和塊狀
  • >抹布系統的共同挑戰
  • 選擇最佳塊策略
  • 基於字符的文本塊
  • 遞歸字符文本用langchain
  • 分裂
  • 文檔特定的塊(html,python,json等)
  • >語義塊與蘭班和Openai
  • 代理分解(LLM驅動的塊)
  • >
  • 基於截面的塊
  • >上下文塊,用於增強檢索
  • >保存遠距離上下文的後期塊
  • 結論
抹布中有什麼塊?

8 Types of Chunking for RAG Systems - Analytics Vidhya8 Types of Chunking for RAG Systems - Analytics Vidhya 8 Types of Chunking for RAG Systems - Analytics Vidhya分解是將大型文本文檔分為較小,更易於管理的單元的過程。 這對於抹布系統至關重要,因為語言模型的上下文窗口有限。 塊確保相關信息保留在這些範圍之內,從而最大程度地提高信噪比並提高模型性能。 目的不僅是要拆分數據,而且是要優化其向模型的顯示,以增強可檢索性和準確性。

>

>

為什麼要塊很重要? 色度聯合創始人安東·特洛伊尼科夫(Anton Troynikov)強調,在上下文窗口中無關緊要的數據可顯著降低應用程序效率。 分塊對於:

至關重要

克服上下文窗口限制:

確保由於尺寸限製而不會丟失關鍵信息。

  1. 提高信號噪聲比率:過濾不相關的內容,提高模型精度。
  2. >提高檢索效率:促進相關信息的更快,更精確的檢索。
  3. 特定於任務的優化:允許根據特定的應用需求量身定制塊策略(例如,摘要與提問)。
  4. 抹布架構和塊

    8 Types of Chunking for RAG Systems - Analytics Vidhya

    抹布架構涉及三個關鍵階段:

    1. >塊:原始數據分為較小的,有意義的塊。
    2. 嵌入:塊被轉換為向量嵌入。
    3. 根據用戶查詢,檢索相關的塊
    4. > 檢索和生成:相關塊,LLM使用檢索到的信息生成響應。

    抹布系統中的挑戰 抹布系統面臨幾個挑戰:

    >
      檢索問題:
    1. 不准確或不完整地檢索相關信息。
    2. 生成困難:
    3. 幻覺,無關或有偏的輸出。
    4. 集成問題:
    5. 難以將檢索到的信息相干地組合。 >
    選擇正確的塊策略

    > 理想的塊策略取決於幾個因素:內容類型,嵌入模型和預期的用戶查詢。 考慮內容的結構和密度,嵌入模型的令牌限制以及用戶可能會提出的問題的類型。

    1。基於字符的文本塊

    這種簡單的方法根據字符數將文本分配到固定尺寸的塊中,無論語義含義如何。 雖然簡單明了,但它通常會破壞句子的結構和上下文。 示例使用Python:

    2。遞歸字符文本用langchain
    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)

    分裂 >這種方法使用多個分離器(例如,雙新線,單個新線,空格)遞歸地分配文本,並合併較小的塊以優化目標字符大小。 它比基於角色的塊更複雜,提供更好的上下文保存。 示例使用Langchain:

    3。文檔特定的塊
    # ... (LangChain installation and code as in the original example)

    使用格式特定的分隔符,此方法將塊適應不同的文檔格式(HTML,Python,Markdown等)。 這確保了塊尊重文檔的固有結構。 原始響應中提供了使用Langchain進行Python和Markdown的示例。

    4。語義塊與蘭班和Openai

    語義塊的語義塊根據語義含義分開文本,使用句子嵌入等技術來識別自然斷點。 這種方法確保每個塊代表一個連貫的想法。使用Langchain和OpenAI嵌入式的示例:

    5。代理塊(LLM驅動的分塊)

    >

    代理塊利用LLM來識別文本中的自然斷點,從而產生了更多相關的塊。 這種方法利用LLM對語言和上下文的理解來產生更有意義的細分。 示例使用OpenAI API:

    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)
    6。基於截面的塊

    >此方法利用文檔的固有結構(標題,小標題,部分)來定義塊。這對於結構良好的文檔(例如研究論文或報告)特別有效。 使用Pymupdf和潛在的Dirichlet分配(LDA)進行基於主題的塊:

    # ... (LangChain installation and code as in the original example)
    7。上下文塊

    上下文塊的重點是在每個塊中保存語義上下文。 這樣可以確保檢索到的信息連貫且相關。示例使用Langchain和自定義提示:

    # ... (OpenAI API key setup and code as in the original example)
    8。晚分塊

    >較晚的分塊延遲塊,直到為整個文檔生成嵌入後。這可以保留遠距離上下文依賴性,從而提高了嵌入和檢索的準確性。使用Jina嵌入模型的示例:

    # ... (OpenAI API key setup and code as in the original example)
    結論

    >有效的塊對於構建高性能的抹布系統至關重要。切塊策略的選擇顯著影響信息檢索的質量和產生的響應的連貫性。 通過仔細考慮數據的特徵和應用程序的特定要求,開發人員可以選擇最合適的塊方法來優化其抹布系統的性能。 請記住,始終優先考慮在每個塊中保持上下文的完整性和相關性。 >

以上是抹布系統的8種類型的塊 - 分析Vidhya的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
特斯拉的Robovan是2024年的Robotaxi預告片中的隱藏寶石特斯拉的Robovan是2024年的Robotaxi預告片中的隱藏寶石Apr 22, 2025 am 11:48 AM

自2008年以來,我一直倡導這輛共享乘車麵包車,即後來被稱為“ Robotjitney”,後來是“ Vansit”,這是城市運輸的未來。 我預見這些車輛是21世紀的下一代過境解決方案Surpas

Sam俱樂部在AI上押注以消除收據檢查並增強零售Sam俱樂部在AI上押注以消除收據檢查並增強零售Apr 22, 2025 am 11:29 AM

革新結帳體驗 Sam's Club的創新性“ Just Go”系統建立在其現有的AI驅動“掃描和GO”技術的基礎上,使會員可以在購物旅行期間通過Sam's Club應用程序進行掃描。

Nvidia的AI Omniverse在GTC 2025擴展Nvidia的AI Omniverse在GTC 2025擴展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增強可預測性和新產品陣容 NVIDIA是AI基礎架構的關鍵參與者,正在專注於提高其客戶的可預測性。 這涉及一致的產品交付,達到績效期望以及

探索Google的功能探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2:強大,高效的語言模型 Google的Gemma語言模型家族以效率和性能而慶祝,隨著Gemma 2的到來而擴展。此最新版本包括兩種模型:270億個參數VER

下一波《 Genai:與Kirk Borne博士的觀點》 -Analytics Vidhya下一波《 Genai:與Kirk Borne博士的觀點》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

這一領先的數據劇集以數據科學家,天體物理學家和TEDX演講者Kirk Borne博士為特色。 Borne博士是大數據,AI和機器學習的著名專家,為當前狀態和未來的Traje提供了寶貴的見解

AI適合跑步者和運動員:我們取得了出色的進步AI適合跑步者和運動員:我們取得了出色的進步Apr 22, 2025 am 11:12 AM

這次演講中出現了一些非常有見地的觀點——關於工程學的背景信息,這些信息向我們展示了為什麼人工智能如此擅長支持人們的體育鍛煉。 我將從每位貢獻者的觀點中概括出一個核心思想,以展示三個設計方面,這些方面是我們探索人工智能在體育運動中應用的重要組成部分。 邊緣設備和原始個人數據 關於人工智能的這個想法實際上包含兩個組成部分——一個與我們放置大型語言模型的位置有關,另一個與我們人類語言和我們的生命體徵在實時測量時“表達”的語言之間的差異有關。 Alexander Amini 對跑步和網球都很了解,但他還

傑米·恩格斯特羅姆(Jamie Engstrom)關於卡特彼勒的技術,人才和轉型傑米·恩格斯特羅姆(Jamie Engstrom)關於卡特彼勒的技術,人才和轉型Apr 22, 2025 am 11:10 AM

卡特彼勒(Caterpillar)的首席信息官兼高級副總裁傑米·恩格斯特(Jamie Engstrom)領導了一支由28個國家 /地區的2200多名IT專業人員組成的全球團隊。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

新的Google照片更新使任何具有Ultra HDR質量的照片流行新的Google照片更新使任何具有Ultra HDR質量的照片流行Apr 22, 2025 am 11:09 AM

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增強照片,將標準圖像轉換為充滿活力的高動態範圍傑作。對於社交媒體而言,此工具可提高任何照片的影響,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。