MarkItDown 是微軟開發的 Python 套件,旨在將多種文件格式轉換為 Markdown。
自推出以來,該庫的受歡迎程度直線上升,在短短兩週內就獲得了超過 25k 的 GitHub 星! ?
MarkItDown 為多種文件類型提供強大的支持,例如:
它不僅能夠處理 Word 等標準格式,還能夠處理多模式數據,這使其脫穎而出。例如,它使用 OCR 和語音識別從圖像和音訊檔案中提取內容。
將任何內容轉換為 Markdown 的能力使 MarkItDown 成為 LLM 培訓的強大工具。透過處理特定領域的文檔,它提供了豐富的上下文,以便在 LLM 支援的應用程式中產生更準確和相關的回應。
使用 MarkItDown 非常簡單 - 只需要 4 行程式碼:
這是 MarkItDown 的一些用例。
轉換 Word 文件會產生乾淨且精確的 Markdown:
即使是多選項卡 Excel 電子表格也能輕鬆處理:
ZIP 檔案?沒問題!該函式庫遞歸地解析其中的所有檔案:
最初,影像擷取可能不會產生任何結果:
這是因為 MarkItDown 依賴 LLM 來產生影像描述。透過整合LLM客戶端,您可以啟用此功能:
配置到位後,可以成功處理影像檔案:
注意:LLM 不會處理基於影像的 PDF。 PDF 需要 OCR 預處理來提取內容。
但是,PDF 在擷取時會遺失格式,因此無法區分標題和純文字:
MarkItDown 並非沒有限制:
儘管如此,作為一個開源項目,它是高度可自訂的。由於其乾淨的程式碼庫,開發人員可以輕鬆擴展其功能。
MarkItDown 的架構簡單且模組化。
它有一個DocumentConverter類,它定義了一個通用的convert()方法:
各個轉換器繼承自該基底類別並動態註冊:
這種模組化方法可以輕鬆新增對新檔案類型的支援。
使用 mammoth、pandas 或 pptx 等函式庫將 Office 檔案轉換為 HTML,然後使用 BeautifulSoup 轉換為 Markdown。
音訊是透過使用Google API 的speech_recognition 庫轉錄的。
(微軟,為什麼這裡沒有 Azure??)
影像處理涉及透過 LLM 提示產生標題:
「為這張圖片寫下詳細的描述。」
PDF 由 pdfminer 庫處理,但缺乏內建 OCR。您必須預處理 PDF 才能提取文字。
MarkItDown 可以在本地運行,但將其作為 API 託管可以釋放額外的靈活性,使其可以輕鬆整合到 Zapier 和 n8n 等工作流程中。
這是使用 FastAPI 的 MarkItDown API 的簡單範例:
呼叫API:
託管 Python API 可能很棘手。 AWS EC2 或 DigitalOcean 等傳統服務需要租用整個伺服器,這總是很昂貴的。
但是現在,您可以使用Leapcell。
這是一個可以以無伺服器方式託管 Python 程式碼庫的平台 - 它僅按 API 呼叫收費,並且提供慷慨的免費使用。
只需連接您的 GitHub 儲存庫,定義建置和啟動命令,就可以了:
現在您擁有了一個託管在雲端的 MarkItDown API,可以整合到您的工作流程中,最重要的是,僅在真正調用時收費。
立即開始在 Leapcell 上建立自己的 MarkItDown API! ?
以上是深入了解 Microsoft MarkItDown的詳細內容。更多資訊請關注PHP中文網其他相關文章!