搜尋
首頁科技週邊人工智慧如何使用文檔構建多模式抹布?

使用文檔解鎖多模式AI:建築檢索型生成系統的指南

人工智能(AI)正在徹底改變數據處理,而多模式檢索生成(RAG)處於這種轉變的最前沿。抹布系統在處理多種數據類型(文本,圖像,音頻和視頻)方面表現出色,這是導航許多企業中主要非結構化數據的關鍵功能。這種能力增強了上下文理解,提高準確性並擴大了包括醫療保健,客戶服務和教育在內的各個領域的AI應用。

本文探討了IBM的開源工具包,該文章旨在簡化生成AI應用程序的文檔處理,專門針對構建多模式的RAG功能。 Docling將各種文件格式(PDF,DOCX,圖像等)轉換為結構化輸出(JSON,MARKDOWN),與Langchain和LlamainDex等流行的AI框架無縫集成。這簡化了非結構化數據的提取並支持高級佈局分析,從而使AI驅動的見解訪問了複雜的企業數據。

關鍵學習目標:

  • 了解文檔:了解文檔如何從非結構化文件中提取多模式信息。
  • Docling的架構:檢查Docling的管道和核心AI組件。
  • Docling的獨特功能:發現與其他解決方案區分開的內容。
  • 構建多模式抹布系統:使用文檔來實現數據提取和檢索。
  • 端到端工作流程:掌握從PDF中提取數據,生成圖像描述的過程,並使用PHI 4查詢矢量數據庫。

用於非結構化數據處理的文檔:

Docling是IBM的開源工具包,有效地將非結構化文件(PDFS,DOCX,圖像)轉換為結構化格式(JSON,MARKDOWN)。利用Doclaynet(用於佈局分析)和TableFormer(用於表識別)(用於表識別)的高級AI模型,在保留文檔的結構的同時,準確地提取文本,表和圖像。它與Langchain和LlamainDex的無縫集成支持了抹布和提問的應用。它的輕巧設計可確保在標準硬件上有效性能,為基於雲的解決方案提供了具有成本效益的替代方案並確定數據隱私的優先級。

文檔管道:

如何使用文檔構建多模式抹布?

文檔採用線性管道。文檔最初是解析的(PDF後端),提取具有坐標和渲染頁面圖的文本令牌。然後,AI模型獨立處理每個頁面以提取佈局和表結構。最後,後處理階段聚合頁面結果,添加元數據,檢測語言,注入閱讀順序,並組裝一個結構化的文檔對象(JSON或MARKDOWN)。

文檔中的核心AI模型:

文檔超越了傳統,計算昂貴的OCR。它利用專門培訓的用於視覺組件識別和分類的計算機視覺模型。

  • 佈局分析模型:基於RT-detr,並使用Doclaynet(一個大型的人類通知數據集)進行了訓練,該模型充當對象檢測器,識別和分類元素,例如文本塊,圖像,表和字幕。它在72 DPI處處理圖像,從而實現有效的CPU處理。
  • TableFormer模型:此視覺轉換器模型在從圖像中重建表結構,處理缺失邊框,空單元格和格式不一致的複雜性的重建表結構方面出色。

Docling的主要優勢:

  • 多功能格式支持: Proceses PDF,DOCX,PPTX,HTML,圖像等,將導出到JSON和MARKDOWN。
  • 高級PDF處理:包括佈局分析,閱讀順序檢測,表識別和OCR(可選)掃描文檔。
  • 統一文檔表示:使用一致的格式進行更輕鬆的處理和分析。
  • AI-Ready集成:與Langchain和Llamaindex無縫集成。
  • 本地執行:啟用敏感數據的安全處理。
  • 高效性能:比傳統OCR快得多。
  • 模塊化體系結構:易於自定義且可擴展。
  • 開源可用性:根據MIT許可免費提供。

使用文檔(Python實施)構建多模式的抹布系統:

本節詳細介紹了使用文檔,從PDF中提取文本,圖像和表,生成圖像描述並查詢向量數據庫的抹布系統。完整的代碼可在Google Colab筆記本(原始文章中提供)中找到。 The steps involve installing libraries, loading the Docling converter, chunking text, processing tables, encoding images, using a vision language model (eg, llama3.2-vision via Ollama) for image description generation, storing data in a vector database (eg, Milvus), and querying the system using an LLM (eg, Phi 4 via Ollama).該示例使用圖表使用樣本PDF(“ Accenture.pdf”)來演示多模式檢索。

(注意:此處將包括原始文章中的詳細代碼段,但由於長度約束,省略了它們。請參閱原始文章以獲取完整代碼。)

分析抹布系統:

本文展示了通過幾個問題查詢系統的查詢,展示了其準確檢索和合成PDF中文本,表和圖像描述信息的能力。使用PDF的屏幕截圖在視覺上確認結果。

結論:

文檔是將非結構化數據轉換為適合生成AI的格式的強大工具。它的高級AI模型,無縫框架集成和開源性質的結合使其成為構建強大而有效的多模式抹布系統的寶貴資產。它的成本效益和對本地執行的支持對處理敏感信息的企業特別有益。

(注意:由於長度限制,此處省略了原始文章的“常見問題”部分。它為抹布,文檔的功能及其適用於企業使用提供了進一步的澄清。)

以上是如何使用文檔構建多模式抹布?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
加利福尼亞攻擊AI到快速賽道野火恢復許可證加利福尼亞攻擊AI到快速賽道野火恢復許可證May 04, 2025 am 11:10 AM

AI簡化了野火恢復允許 澳大利亞科技公司Archistar的AI軟件,利用機器學習和計算機視覺,可以自動評估建築計劃以符合當地法規。這種驗證前具有重要意義

美國可以從愛沙尼亞AI驅動的數字政府中學到什麼美國可以從愛沙尼亞AI驅動的數字政府中學到什麼May 04, 2025 am 11:09 AM

愛沙尼亞的數字政府:美國的典範? 美國在官僚主義的效率低下方面掙扎,但愛沙尼亞提供了令人信服的選擇。 這個小國擁有由AI支持的近100%數字化的,以公民為中心的政府。 這不是

通過生成AI的婚禮計劃通過生成AI的婚禮計劃May 04, 2025 am 11:08 AM

計劃婚禮是一項艱鉅的任務,即使是最有條理的夫婦,也常常壓倒了婚禮。 本文是關於AI影響的持續福布斯系列的一部分(請參閱此處的鏈接),探討了生成AI如何徹底改變婚禮計劃。 婚禮上

什麼是數字防禦AI代理?什麼是數字防禦AI代理?May 04, 2025 am 11:07 AM

企業越來越多地利用AI代理商進行銷售,而政府則將其用於各種既定任務。 但是,消費者倡導強調個人需要擁有自己的AI代理人作為對經常定位的辯護的必要性

商業領袖生成引擎優化指南(GEO)商業領袖生成引擎優化指南(GEO)May 03, 2025 am 11:14 AM

Google正在領導這一轉變。它的“ AI概述”功能已經為10億用戶提供服務,在任何人單擊鏈接之前提供完整的答案。 [^2] 其他球員也正在迅速獲得地面。 Chatgpt,Microsoft Copilot和PE

該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥May 03, 2025 am 11:13 AM

2022年,他創立了社會工程防禦初創公司Doppel,以此做到這一點。隨著網絡犯罪分子越來越高級的AI模型來渦輪增壓,Doppel的AI系統幫助企業對其進行了大規模的對抗 - 更快,更快,

世界模型如何從根本上重塑生成AI和LLM的未來世界模型如何從根本上重塑生成AI和LLM的未來May 03, 2025 am 11:12 AM

瞧,通過與合適的世界模型進行交互,可以實質上提高生成的AI和LLM。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括

2050年五月:我們要慶祝什麼?2050年五月:我們要慶祝什麼?May 03, 2025 am 11:11 AM

勞動節2050年。全國范圍內的公園充滿了享受傳統燒烤的家庭,而懷舊遊行則穿過城市街道。然而,慶祝活動現在具有像博物館般的品質 - 歷史重演而不是紀念C

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具