首頁 >後端開發 >Python教學 >如何在 Python 中從 PDF 文件中提取文字:用 PDFMiner 替換 PyPDF?

如何在 Python 中從 PDF 文件中提取文字:用 PDFMiner 替換 PyPDF?

DDD
DDD原創
2024-11-13 07:32:02996瀏覽

How to Extract Text from a PDF File in Python: Replacing PyPDF with PDFMiner?

使用 Python 將 PDF 轉換為文字

PDF 文件通常用於安全地共享文檔,但提取文字內容可能具有挑戰性。本題探討了能夠將 PDF 文件轉換為文字的 Python 模組。

使用者嘗試了利用 PyPDF 的程式碼,但輸出缺少空格,導致無法使用。此回應提供了替代解決方案:PDFMiner。

PDFMiner:

PDFMiner 是一個 Python 模組,可以將 PDF 檔案轉換為 HTML、SGML 或「標記 PDF」格式。標籤的 PDF 格式特別有用,因為它可以輕鬆轉換為純文字。

用法:

要使用PDFMiner,請依照下列步驟操作:

  1. 安裝PDFMiner:

    pip install pdfminer
  2. 從PDF 文件中提取文字:
    import pdfminer
    from pdfminer.high_level import extract_text
    
    text = extract_text("path/to/pdf_file.pdf")

Python 3 版本:

對於3,PDFMiner 位於:
  • https://github.com/pdfminer/pdfminer.six

這個替代解決方案解決了PyPDF 用戶面臨的挑戰,提供了一種更有效的方法來使用Python 從PDF 文件中提取文字。

以上是如何在 Python 中從 PDF 文件中提取文字:用 PDFMiner 替換 PyPDF?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn