ホームページ >バックエンド開発 >Python チュートリアル >PythonでPDFテキストを抽出する方法

PythonでPDFテキストを抽出する方法

(*-*)浩
(*-*)浩オリジナル
2019-06-29 11:42:216131ブラウズ

この記事では、Python を使用して多数の PDF ファイルのテキスト コンテンツをバッチで抽出する方法を説明します。

PythonでPDFテキストを抽出する方法

まず、ファイル操作を実行するためにいくつかのモジュールを読み込みます。 (推奨される学習: Python ビデオ チュートリアル )

import glob
import os

デモ ディレクトリには、pdf と newpdf という 2 つのフォルダーがあります。

pdf ファイルが配置されているパスを pdf フォルダーとして指定します。

pdf_path = "pdf/"

すべての PDF ファイルのパスを取得したいと考えています。 glob を使用すると、この機能は 1 つのコマンドで完了できます。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

取得した PDF ファイルのパスが正しいかどうかを確認してください。

pdfs
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']

確認しました。正確な。

以下では、pdfminer を使用して PDF ファイルからコンテンツを抽出します。ヘルパー Python ファイル pdf_extractor.py から関数 extract_pdf_content を読み取る必要があります。

from pdf_extractor import extract_pdf_content

この関数を使用して、PDF ファイル リストの最初の記事からコンテンツを抽出し、そのテキストを content 変数に保存しようとします。

content = extract_pdf_content(pdfs[0])

明らかに、コンテンツの抽出は完全ではなく、ヘッダー、フッター、その他の情報が混在しています。ただし、テキスト分析の用途の多くでは、これは問題になりません。

Python 関連の技術記事の詳細については、Python チュートリアル 列にアクセスして学習してください。

以上がPythonでPDFテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。