ホームページ >バックエンド開発 >Python チュートリアル >Python PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?

Python PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?

Barbara Streisand
Barbara Streisandオリジナル
2024-12-03 15:53:11933ブラウズ

Why Does My Python PDF Text Extraction Produce Garbled Output, and How Can I Fix It?

Python を使用した PDF テキストの抽出: 出力の不一致のトラブルシューティング

Python の PyPDF2 ライブラリを使用して PDF ファイルからテキストを抽出しようとすると、次のような問題が発生します。出力が PDF ドキュメント内のテキストと異なることを確認します。具体的には、出力が歪んで読めない文字が含まれています。

PDF テキストを効果的に抽出するには、Tika パッケージを使用することをお勧めします。 PyPDF2 とは異なり、元の書式を保持しながら PDF テキスト抽出をサポートします。

Tika を使用してテキストを抽出する方法は次のとおりです:

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

Tika は Java ランタイムに依存していることに注意してください。 Python で使用する前にインストールする必要があります。

以上がPython PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。