Heim  >  Artikel  >  Backend-Entwicklung  >  Wie extrahiere ich Text aus PDF-Dateien mit PDFMiner in Python mit den neuesten API-Änderungen?

Wie extrahiere ich Text aus PDF-Dateien mit PDFMiner in Python mit den neuesten API-Änderungen?

Linda Hamilton
Linda HamiltonOriginal
2024-10-17 14:23:29587Durchsuche

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

Textextraktion aus PDF-Dateien mit PDFMiner in Python

Das Extrahieren von Text aus einer PDF-Datei ist eine häufige Aufgabe bei der Arbeit mit strukturierten Daten. Python stellt die PDFMiner-Bibliothek zur Verfügung, um diesen Prozess zu erleichtern. Allerdings haben die jüngsten Aktualisierungen der PDFMiner-API viele frühere Beispiele überflüssig gemacht.

Um dieses Problem zu beheben, schauen wir uns ein funktionierendes Beispiel der Textextraktion mit der aktuellen Version von PDFMiner an:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

Dies Die Funktion verwendet einen PDF-Dateipfad als Eingabe und gibt den extrahierten Text als Zeichenfolge zurück. Es bewältigt gängige Szenarien wie passwortgeschützte PDFs und mehrseitige Dokumente.

Durch die Verwendung der neuesten Version von PDFMiner und die Implementierung dieser Funktion können Sie Text effizient aus PDF-Dateien in Ihren Python-Anwendungen extrahieren.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich Text aus PDF-Dateien mit PDFMiner in Python mit den neuesten API-Änderungen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn