Maison >développement back-end >Tutoriel Python >Comment extraire par lots des informations d'un PDF à l'aide de Python
Pour utiliser python pour extraire par lots des informations de pdf, vous pouvez utiliser une bibliothèque dans Python appelée PyPDF2. Voici un exemple simple pour vous aider à commencer à extraire des informations textuelles à partir d'un PDF :
Tout d'abord, vous devez installer la bibliothèque PyPDF2. La bibliothèque peut être installée dans le terminal ou l'invite de commande à l'aide de la commande suivante :
pip install PyPDF2
Ensuite, vous pouvez utiliser le code suivant pour extraire les informations textuelles du PDF :
import PyPDF2 def extract_text_from_pdf(pdf_path): with open(pdf_path, 'rb') as file: pdf = PyPDF2.PdfFileReader(file) text = "" for page_number in range(pdf.getNumPages()): page = pdf.getPage(page_number) text += page.extractText() return text # 批量提取PDF中的文本信息 pdf_folder = "pdf文件夹路径" output_folder = "输出文件夹路径" import os for filename in os.listdir(pdf_folder): if filename.endswith(".pdf"): pdf_path = os.path.join(pdf_folder, filename) text = extract_text_from_pdf(pdf_path) output_path = os.path.join(output_folder, f"{filename}.txt") with open(output_path, 'w', encoding='utf-8') as file: file.write(text)
Dans le code ci-dessus, pdf_folder
是包含PDF文件的文件夹的路径,output_folder
est le chemin du dossier vers lequel le texte extrait sera sorti. Le code parcourra tous les fichiers PDF du dossier, extraira le contenu textuel de chaque fichier et enregistrera le texte extrait dans le fichier texte correspondant.
Veuillez noter que ce code ne peut extraire que des informations en texte brut au format PDF. Si le PDF contient du contenu non textuel tel que des images ou des tableaux, le code peut ne pas être extrait ou extrait correctement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!