Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana Mengekstrak Teks daripada Fail PDF Menggunakan Versi Terkini PDFMiner dalam Python?

Bagaimana Mengekstrak Teks daripada Fail PDF Menggunakan Versi Terkini PDFMiner dalam Python?

Patricia Arquette
Patricia Arquetteasal
2024-10-17 14:29:30348semak imbas

How to Extract Text from PDF Files Using the Latest Version of PDFMiner in Python?

Extracting Text from PDF Files with PDFMiner in Python

Question:

How can I extract text from a PDF file using the latest version of PDFMiner in Python?

Answer:

PDFMiner has undergone significant API updates recently. Here's how you can extract text using its current version:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

Note: This solution addresses the API changes introduced by PDFMiner's recent updates, ensuring compatibility with the current version of the library.

Atas ialah kandungan terperinci Bagaimana Mengekstrak Teks daripada Fail PDF Menggunakan Versi Terkini PDFMiner dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn