Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python

Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python

PHPz
PHPzke hadapan
2024-03-02 09:25:16670semak imbas

Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python

Untuk menggunakan python untuk mengekstrak maklumat daripada pdf, anda boleh menggunakan perpustakaan Python yang dipanggil PyPDF2. Berikut ialah contoh mudah untuk membantu anda mula mengekstrak maklumat teks daripada PDF:

Pertama, anda perlu memasang perpustakaan PyPDF2. Pustaka boleh dipasang dalam terminal atau command prompt menggunakan arahan berikut:

pip install PyPDF2

Kemudian, anda boleh menggunakan kod berikut untuk mengekstrak maklumat teks daripada PDF:

import PyPDF2

def extract_text_from_pdf(pdf_path):
with open(pdf_path, 'rb') as file:
pdf = PyPDF2.PdfFileReader(file)
text = ""
for page_number in range(pdf.getNumPages()):
page = pdf.getPage(page_number)
text += page.extractText()
return text

# 批量提取PDF中的文本信息
pdf_folder = "pdf文件夹路径"
output_folder = "输出文件夹路径"

import os

for filename in os.listdir(pdf_folder):
if filename.endswith(".pdf"):
pdf_path = os.path.join(pdf_folder, filename)
text = extract_text_from_pdf(pdf_path)

output_path = os.path.join(output_folder, f"{filename}.txt")
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)

Dalam kod di atas, pdf_folder是包含PDF文件的文件夹的路径,output_folder ialah laluan folder yang teks yang diekstrak akan dikeluarkan. Kod ini akan melingkari semua fail PDF dalam folder, mengekstrak kandungan teks setiap fail dan menyimpan teks yang diekstrak ke fail teks yang sepadan.

Sila ambil perhatian bahawa kod ini hanya boleh mengekstrak maklumat teks biasa dalam PDF Jika PDF mengandungi kandungan bukan teks seperti imej atau jadual, kod itu mungkin tidak mengekstrak atau mengekstrak dengan betul.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:lsjlt.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam