Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?

Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?

Linda Hamilton
Linda Hamiltonasal
2024-10-17 14:23:29588semak imbas

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

Pengeluaran Teks daripada Fail PDF Menggunakan PDFMiner dalam Python

Mengekstrak teks daripada fail PDF ialah tugas biasa apabila bekerja dengan data berstruktur. Python menyediakan perpustakaan PDFMiner untuk memudahkan proses ini. Walau bagaimanapun, kemas kini terbaru pada PDFMiner API telah menyebabkan banyak contoh terdahulu menjadi usang.

Untuk menangani perkara ini, mari kita terokai contoh pengekstrakan teks yang berfungsi menggunakan versi semasa PDFMiner:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

Ini fungsi mengambil laluan fail PDF sebagai input dan mengembalikan teks yang diekstrak sebagai rentetan. Ia mengendalikan senario biasa seperti PDF yang dilindungi kata laluan dan dokumen berbilang halaman.

Dengan menggunakan versi terkini PDFMiner dan melaksanakan fungsi ini, anda boleh mengekstrak teks daripada fail PDF dengan cekap dalam aplikasi Python anda.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn