首頁 >後端開發 >Python教學 >深入了解 Microsoft MarkItDown

深入了解 Microsoft MarkItDown

Linda Hamilton
Linda Hamilton原創
2024-12-26 16:14:20293瀏覽

什麼是 MarkItDown?

MarkItDown 是微軟開發的 Python 套件,旨在將多種文件格式轉換為 Markdown。

自推出以來,該庫的受歡迎程度直線上升,在短短兩週內就獲得了超過 25k 的 GitHub 星! ?

Deep Dive into Microsoft MarkItDown

是什麼讓 MarkItDown 如此受歡迎?

MarkItDown 為多種文件類型提供強大的支持,例如:

  • 辦公室格式:Word、PowerPoint、Excel
  • 媒體檔案:圖像(帶有 EXIF 資料和描述)、音訊(帶有轉錄支援)
  • 網路與資料格式:HTML、JSON、XML、CSV
  • 檔案:ZIP 檔案

它不僅能夠處理 Word 等標準格式,還能夠處理多模式數據,這使其脫穎而出。例如,它使用 OCR 和語音識別從圖像和音訊檔案中提取內容。

將任何內容轉換為 Markdown 的能力使 MarkItDown 成為 LLM 培訓的強大工具。透過處理特定領域的文檔,它提供了豐富的上下文,以便在 LLM 支援的應用程式中產生更準確和相關的回應。

開始使用 MarkItDown

使用 MarkItDown 非常簡單 - 只需要 4 行程式碼:

這是 MarkItDown 的一些用例。

轉換 Word 文件會產生乾淨且精確的 Markdown:

Deep Dive into Microsoft MarkItDown

即使是多選項卡 Excel 電子表格也能輕鬆處理:

Deep Dive into Microsoft MarkItDown

ZIP 檔案?沒問題!該函式庫遞歸地解析其中的所有檔案:

Deep Dive into Microsoft MarkItDown

最初,影像擷取可能不會產生任何結果:

Deep Dive into Microsoft MarkItDown

這是因為 MarkItDown 依賴 LLM 來產生影像描述。透過整合LLM客戶端,您可以啟用此功能:

配置到位後,可以成功處理影像檔案:

Deep Dive into Microsoft MarkItDown

注意:LLM 不會處理基於影像的 PDF。 PDF 需要 OCR 預處理來提取內容。

Deep Dive into Microsoft MarkItDown

但是,PDF 在擷取時會遺失格式,因此無法區分標題和純文字:

Deep Dive into Microsoft MarkItDown

限制

MarkItDown 並非沒有限制:

  • 沒有 OCR 的 PDF 檔案無法處理。
  • 從 PDF 檔案中提取時無法進行格式化。

儘管如此,作為一個開源項目,它是高度可自訂的。由於其乾淨的程式碼庫,開發人員可以輕鬆擴展其功能。

MarkItDown 的工作原理

MarkItDown 的架構簡單且模組化。

它有一個DocumentConverter類,它定義了一個通用的convert()方法:

各個轉換器繼承自該基底類別並動態註冊:

這種模組化方法可以輕鬆新增對新檔案類型的支援。

文件轉換工作流程

辦公室文件

使用 mammoth、pandas 或 pptx 等函式庫將 Office 檔案轉換為 HTML,然後使用 BeautifulSoup 轉換為 Markdown。

Deep Dive into Microsoft MarkItDown

音訊檔案

音訊是透過使用Google API 的speech_recognition 庫轉錄的。

(微軟,為什麼這裡沒有 Azure??)

Deep Dive into Microsoft MarkItDown

圖片

影像處理涉及透過 LLM 提示產生標題:
「為這張圖片寫下詳細的描述。」

Deep Dive into Microsoft MarkItDown

PDF 文件

PDF 由 pdfminer 庫處理,但缺乏內建 OCR。您必須預處理 PDF 才能提取文字。

Deep Dive into Microsoft MarkItDown

將 MarkItDown 部署為 API

MarkItDown 可以在本地運行,但將其作為 API 託管可以釋放額外的靈活性,使其可以輕鬆整合到 Zapier 和 n8n 等工作流程中。

這是使用 FastAPI 的 MarkItDown API 的簡單範例:

呼叫API:

免費託管 API

託管 Python API 可能很棘手。 AWS EC2 或 DigitalOcean 等傳統服務需要租用整個伺服器,這總是很昂貴的。

但是現在,您可以使用Leapcell。

這是一個可以以無伺服器方式託管 Python 程式碼庫的平台 - 它僅按 API 呼叫收費,並且提供慷慨的免費使用。

只需連接您的 GitHub 儲存庫,定義建置和啟動命令,就可以了:

Deep Dive into Microsoft MarkItDown

現在您擁有了一個託管在雲端的 MarkItDown API,可以整合到您的工作流程中,最重要的是,僅在真正調用時收費。


立即開始在 Leapcell 上建立自己的 MarkItDown API! ?

Deep Dive into Microsoft MarkItDown

以上是深入了解 Microsoft MarkItDown的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn