什麼是 MarkItDown?
MarkItDown 是微軟開發的 Python 套件,旨在將多種文件格式轉換為 Markdown。
自推出以來,該庫的受歡迎程度直線上升,在短短兩週內就獲得了超過 25k 的 GitHub 星! ?
是什麼讓 MarkItDown 如此受歡迎?
MarkItDown 為多種文件類型提供強大的支持,例如:
- 辦公室格式:Word、PowerPoint、Excel
- 媒體檔案:圖像(帶有 EXIF 資料和描述)、音訊(帶有轉錄支援)
- 網路與資料格式:HTML、JSON、XML、CSV
- 檔案:ZIP 檔案
它不僅能夠處理 Word 等標準格式,還能夠處理多模式數據,這使其脫穎而出。例如,它使用 OCR 和語音識別從圖像和音訊檔案中提取內容。
將任何內容轉換為 Markdown 的能力使 MarkItDown 成為 LLM 培訓的強大工具。透過處理特定領域的文檔,它提供了豐富的上下文,以便在 LLM 支援的應用程式中產生更準確和相關的回應。
開始使用 MarkItDown
使用 MarkItDown 非常簡單 - 只需要 4 行程式碼:
這是 MarkItDown 的一些用例。
轉換 Word 文件會產生乾淨且精確的 Markdown:
即使是多選項卡 Excel 電子表格也能輕鬆處理:
ZIP 檔案?沒問題!該函式庫遞歸地解析其中的所有檔案:
最初,影像擷取可能不會產生任何結果:
這是因為 MarkItDown 依賴 LLM 來產生影像描述。透過整合LLM客戶端,您可以啟用此功能:
配置到位後,可以成功處理影像檔案:
注意:LLM 不會處理基於影像的 PDF。 PDF 需要 OCR 預處理來提取內容。
但是,PDF 在擷取時會遺失格式,因此無法區分標題和純文字:
限制
MarkItDown 並非沒有限制:
- 沒有 OCR 的 PDF 檔案無法處理。
- 從 PDF 檔案中提取時無法進行格式化。
儘管如此,作為一個開源項目,它是高度可自訂的。由於其乾淨的程式碼庫,開發人員可以輕鬆擴展其功能。
MarkItDown 的工作原理
MarkItDown 的架構簡單且模組化。
它有一個DocumentConverter類,它定義了一個通用的convert()方法:
各個轉換器繼承自該基底類別並動態註冊:
這種模組化方法可以輕鬆新增對新檔案類型的支援。
文件轉換工作流程
辦公室文件
使用 mammoth、pandas 或 pptx 等函式庫將 Office 檔案轉換為 HTML,然後使用 BeautifulSoup 轉換為 Markdown。
音訊檔案
音訊是透過使用Google API 的speech_recognition 庫轉錄的。
(微軟,為什麼這裡沒有 Azure??)
圖片
影像處理涉及透過 LLM 提示產生標題:
「為這張圖片寫下詳細的描述。」
PDF 文件
PDF 由 pdfminer 庫處理,但缺乏內建 OCR。您必須預處理 PDF 才能提取文字。
將 MarkItDown 部署為 API
MarkItDown 可以在本地運行,但將其作為 API 託管可以釋放額外的靈活性,使其可以輕鬆整合到 Zapier 和 n8n 等工作流程中。
這是使用 FastAPI 的 MarkItDown API 的簡單範例:
呼叫API:
免費託管 API
託管 Python API 可能很棘手。 AWS EC2 或 DigitalOcean 等傳統服務需要租用整個伺服器,這總是很昂貴的。
但是現在,您可以使用Leapcell。
這是一個可以以無伺服器方式託管 Python 程式碼庫的平台 - 它僅按 API 呼叫收費,並且提供慷慨的免費使用。
只需連接您的 GitHub 儲存庫,定義建置和啟動命令,就可以了:
現在您擁有了一個託管在雲端的 MarkItDown API,可以整合到您的工作流程中,最重要的是,僅在真正調用時收費。
立即開始在 Leapcell 上建立自己的 MarkItDown API! ?
以上是深入了解 Microsoft MarkItDown的詳細內容。更多資訊請關注PHP中文網其他相關文章!

在Python中實現工廠模式可以通過創建一個統一的接口來創建不同類型的對象。具體步驟如下:1.定義一個基礎類和多個繼承類,如Vehicle、Car、Plane和Train。 2.創建一個工廠類VehicleFactory,使用create_vehicle方法根據類型參數返回相應的對象實例。 3.通過工廠類實例化對象,如my_car=factory.create_vehicle("car","Tesla")。這種模式提高了代碼的可擴展性和可維護性,但需注意其複雜

在Python中,r或R前綴用於定義原始字符串,忽略所有轉義字符,讓字符串按字面意思解釋。 1)適用於處理正則表達式和文件路徑,避免轉義字符誤解。 2)不適用於需要保留轉義字符的情況,如換行符。使用時需謹慎檢查,以防意外的輸出。

在Python中,__del__方法是對象的析構函數,用於清理資源。 1)不確定的執行時間:依賴垃圾回收機制。 2)循環引用:可能導致無法及時調用,使用weakref模塊處理。 3)異常處理:在__del__中拋出的異常可能被忽略,使用try-except塊捕獲。 4)資源管理的最佳實踐:推薦使用with語句和上下文管理器管理資源。

pop()函數在Python中用於從列表中移除並返回指定位置的元素。 1)不指定索引時,pop()默認移除並返回列表的最後一個元素。 2)指定索引時,pop()移除並返回該索引位置的元素。 3)使用時需注意索引錯誤、性能問題、替代方法和列表的可變性。

Python進行圖像處理主要使用Pillow和OpenCV兩大庫。 Pillow適合簡單圖像處理,如加水印,代碼簡潔易用;OpenCV適用於復雜圖像處理和計算機視覺,如邊緣檢測,性能優越但需注意內存管理。

在Python中實現PCA可以通過手動編寫代碼或使用scikit-learn庫。手動實現PCA包括以下步驟:1)中心化數據,2)計算協方差矩陣,3)計算特徵值和特徵向量,4)排序並選擇主成分,5)投影數據到新空間。手動實現有助於深入理解算法,但scikit-learn提供更便捷的功能。

在Python中計算對數是一件非常簡單卻又充滿趣味的事情。讓我們從最基本的問題開始:怎樣用Python計算對數?用Python計算對數的基本方法Python的math模塊提供了計算對數的函數。讓我們來看一個簡單的例子:importmath#計算自然對數(底數為e)x=10natural_log=math.log(x)print(f"自然對數log({x})={natural_log}")#計算以10為底的對數log_base_10=math.log10(x)pri

要在Python中實現線性回歸,我們可以從多個角度出發。這不僅僅是一個簡單的函數調用,而是涉及到統計學、數學優化和機器學習的綜合應用。讓我們深入探討一下這個過程。在Python中實現線性回歸最常見的方法是使用scikit-learn庫,它提供了簡便且高效的工具。然而,如果我們想要更深入地理解線性回歸的原理和實現細節,我們也可以從頭開始編寫自己的線性回歸算法。使用scikit-learn實現線性回歸scikit-learn庫封裝了線性回歸的實現,使得我們可以輕鬆地進行建模和預測。下面是一個使用sc


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

記事本++7.3.1
好用且免費的程式碼編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。