Heim  >  Artikel  >  Backend-Entwicklung  >  So extrahieren Sie PDF-Text in Python

So extrahieren Sie PDF-Text in Python

(*-*)浩
(*-*)浩Original
2019-06-29 11:42:216005Durchsuche

Dieser Artikel zeigt Ihnen, wie Sie mit Python den Textinhalt vieler PDF-Dateien stapelweise extrahieren.

So extrahieren Sie PDF-Text in Python

Zuerst lesen wir einige Module ein, um Dateioperationen durchzuführen. (Empfohlenes Lernen: Python-Video-Tutorial)

import glob
import os

Es gibt zwei Ordner im Demo-Verzeichnis, nämlich pdf und newpdf.

Wir geben als PDF-Ordner den Pfad an, in dem sich die PDF-Datei befindet.

pdf_path = "pdf/"

Wir wollen den Pfad aller PDF-Dateien erhalten. Mit glob kann diese Funktion mit einem Befehl ausgeführt werden.

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

Überprüfen Sie, ob der von uns erhaltene PDF-Dateipfad korrekt ist.

pdfs
rrree

Verifiziert. Genau.

Als nächstes verwenden wir pdfminer, um Inhalte aus PDF-Dateien zu extrahieren. Wir müssen die Funktion extract_pdf_content aus der Python-Hilfsdatei pdf_extractor.py einlesen.

['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']

Mit dieser Funktion versuchen wir, den Inhalt aus dem ersten Artikel in der PDF-Dateiliste zu extrahieren und den Text in der Inhaltsvariablen zu speichern.

from pdf_extractor import extract_pdf_content

Offensichtlich ist die Inhaltsextraktion nicht perfekt, Kopf- und Fußzeilen sowie andere Informationen sind vermischt. Für viele unserer Textanalyseanwendungen wird dies jedoch keine Rolle spielen.

Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial, um mehr darüber zu erfahren!

Das obige ist der detaillierte Inhalt vonSo extrahieren Sie PDF-Text in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn