首頁 >後端開發 >Python教學 >如何使用 Python 中的 PDFMiner 以及最新的 API 更改從 PDF 文件中提取文字?

如何使用 Python 中的 PDFMiner 以及最新的 API 更改從 PDF 文件中提取文字?

Linda Hamilton
Linda Hamilton原創
2024-10-17 14:23:29701瀏覽

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

在Python 中使用PDFMiner 從PDF 文件中提取文字

從PDF 文件中提取文字是處理結構化資料時的一項常見任務。 Python 提供了 PDFMiner 函式庫來促進此過程。然而,最近對 PDFMiner API 的更新使許多先前的範例變得過時。

為了解決這個問題,讓我們探索使用目前版本的PDFMiner 進行文字擷取的工作範例:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

This函數將PDF 檔案路徑作為輸入,並以字串形式返回提取的文字。它可以處理常見場景,例如受密碼保護的 PDF 和多頁文件。

透過使用最新版本的 PDFMiner 並實現此功能,您可以在 Python 應用程式中有效地從 PDF 文件中提取文字。

以上是如何使用 Python 中的 PDFMiner 以及最新的 API 更改從 PDF 文件中提取文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn