Maison >développement back-end >Tutoriel Python >Comment extraire par lots des informations d'un PDF à l'aide de Python

Comment extraire par lots des informations d'un PDF à l'aide de Python

PHPz
PHPzavant
2024-03-02 09:25:16688parcourir

Comment extraire par lots des informations dun PDF à laide de Python

Pour utiliser python pour extraire par lots des informations de pdf, vous pouvez utiliser une bibliothèque dans Python appelée PyPDF2. Voici un exemple simple pour vous aider à commencer à extraire des informations textuelles à partir d'un PDF :

Tout d'abord, vous devez installer la bibliothèque PyPDF2. La bibliothèque peut être installée dans le terminal ou l'invite de commande à l'aide de la commande suivante :

pip install PyPDF2

Ensuite, vous pouvez utiliser le code suivant pour extraire les informations textuelles du PDF :

import PyPDF2

def extract_text_from_pdf(pdf_path):
with open(pdf_path, 'rb') as file:
pdf = PyPDF2.PdfFileReader(file)
text = ""
for page_number in range(pdf.getNumPages()):
page = pdf.getPage(page_number)
text += page.extractText()
return text

# 批量提取PDF中的文本信息
pdf_folder = "pdf文件夹路径"
output_folder = "输出文件夹路径"

import os

for filename in os.listdir(pdf_folder):
if filename.endswith(".pdf"):
pdf_path = os.path.join(pdf_folder, filename)
text = extract_text_from_pdf(pdf_path)

output_path = os.path.join(output_folder, f"{filename}.txt")
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)

Dans le code ci-dessus, pdf_folder是包含PDF文件的文件夹的路径,output_folder est le chemin du dossier vers lequel le texte extrait sera sorti. Le code parcourra tous les fichiers PDF du dossier, extraira le contenu textuel de chaque fichier et enregistrera le texte extrait dans le fichier texte correspondant.

Veuillez noter que ce code ne peut extraire que des informations en texte brut au format PDF. Si le PDF contient du contenu non textuel tel que des images ou des tableaux, le code peut ne pas être extrait ou extrait correctement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer