ホームページ >バックエンド開発 >Python チュートリアル >Python PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?
Python を使用した PDF テキストの抽出: 出力の不一致のトラブルシューティング
Python の PyPDF2 ライブラリを使用して PDF ファイルからテキストを抽出しようとすると、次のような問題が発生します。出力が PDF ドキュメント内のテキストと異なることを確認します。具体的には、出力が歪んで読めない文字が含まれています。
PDF テキストを効果的に抽出するには、Tika パッケージを使用することをお勧めします。 PyPDF2 とは異なり、元の書式を保持しながら PDF テキスト抽出をサポートします。
Tika を使用してテキストを抽出する方法は次のとおりです:
from tika import parser # pip install tika raw = parser.from_file('sample.pdf') print(raw['content'])
Tika は Java ランタイムに依存していることに注意してください。 Python で使用する前にインストールする必要があります。
以上がPython PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。