Heim  >  Artikel  >  Backend-Entwicklung  >  Wie extrahiere ich Text aus PDF-Dateien mit der neuesten Version von PDFMiner in Python?

Wie extrahiere ich Text aus PDF-Dateien mit der neuesten Version von PDFMiner in Python?

Patricia Arquette
Patricia ArquetteOriginal
2024-10-17 14:29:30348Durchsuche

How to Extract Text from PDF Files Using the Latest Version of PDFMiner in Python?

Extracting Text from PDF Files with PDFMiner in Python

Question:

How can I extract text from a PDF file using the latest version of PDFMiner in Python?

Answer:

PDFMiner has undergone significant API updates recently. Here's how you can extract text using its current version:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

Note: This solution addresses the API changes introduced by PDFMiner's recent updates, ensuring compatibility with the current version of the library.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich Text aus PDF-Dateien mit der neuesten Version von PDFMiner in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn