Heim > Artikel > Backend-Entwicklung > So extrahieren Sie Informationen stapelweise aus PDF mit Python
Um Python zum Batch-Extrahieren von Informationen aus PDF zu verwenden, können Sie eine Bibliothek von Python namens PyPDF2 verwenden. Hier ist ein einfaches Beispiel, das Ihnen beim Extrahieren von Textinformationen aus PDF helfen soll:
Zuerst müssen Sie die PyPDF2-Bibliothek installieren. Die Bibliothek kann im Terminal oder in der Eingabeaufforderung mit dem folgenden Befehl installiert werden:
pip install PyPDF2
Dann können Sie den folgenden Code verwenden, um Textinformationen aus PDF zu extrahieren:
import PyPDF2 def extract_text_from_pdf(pdf_path): with open(pdf_path, 'rb') as file: pdf = PyPDF2.PdfFileReader(file) text = "" for page_number in range(pdf.getNumPages()): page = pdf.getPage(page_number) text += page.extractText() return text # 批量提取PDF中的文本信息 pdf_folder = "pdf文件夹路径" output_folder = "输出文件夹路径" import os for filename in os.listdir(pdf_folder): if filename.endswith(".pdf"): pdf_path = os.path.join(pdf_folder, filename) text = extract_text_from_pdf(pdf_path) output_path = os.path.join(output_folder, f"{filename}.txt") with open(output_path, 'w', encoding='utf-8') as file: file.write(text)
Im obigen Code ist pdf_folder
是包含PDF文件的文件夹的路径,output_folder
der Ordnerpfad, in den der extrahierte Text ausgegeben wird. Der Code durchläuft alle PDF-Dateien im Ordner, extrahiert den Textinhalt jeder Datei und speichert den extrahierten Text in der entsprechenden Textdatei.
Bitte beachten Sie, dass dieser Code nur reine Textinformationen in PDFs extrahieren kann. Wenn das PDF Nicht-Text-Inhalte wie Bilder oder Tabellen enthält, kann der Code möglicherweise nicht richtig extrahiert werden.
Das obige ist der detaillierte Inhalt vonSo extrahieren Sie Informationen stapelweise aus PDF mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!