Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?

Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?

Linda Hamiltonasal: 2024-10-17 14:23:29748semak imbas

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

Pengeluaran Teks daripada Fail PDF Menggunakan PDFMiner dalam Python

Mengekstrak teks daripada fail PDF ialah tugas biasa apabila bekerja dengan data berstruktur. Python menyediakan perpustakaan PDFMiner untuk memudahkan proses ini. Walau bagaimanapun, kemas kini terbaru pada PDFMiner API telah menyebabkan banyak contoh terdahulu menjadi usang.

Untuk menangani perkara ini, mari kita terokai contoh pengekstrakan teks yang berfungsi menggunakan versi semasa PDFMiner:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

Ini fungsi mengambil laluan fail PDF sebagai input dan mengembalikan teks yang diekstrak sebagai rentetan. Ia mengendalikan senario biasa seperti PDF yang dilindungi kata laluan dan dokumen berbilang halaman.

Dengan menggunakan versi terkini PDFMiner dan melaksanakan fungsi ini, anda boleh mengekstrak teks daripada fail PDF dengan cekap dalam aplikasi Python anda.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Python String using protected function this input

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Bagaimana untuk menyediakan Kit Alat Nvidia TAO pada Buku Nota KaggleArtikel seterusnya：Bagaimana untuk menyediakan Kit Alat Nvidia TAO pada Buku Nota Kaggle

Artikel berkaitan

Lihat lagi