Maison >développement back-end >Tutoriel Python >Pourquoi mon extraction de texte PDF Python produit-elle une sortie tronquée et comment puis-je y remédier ?

Pourquoi mon extraction de texte PDF Python produit-elle une sortie tronquée et comment puis-je y remédier ?

Barbara Streisand
Barbara Streisandoriginal
2024-12-03 15:53:11945parcourir

Why Does My Python PDF Text Extraction Produce Garbled Output, and How Can I Fix It?

Extraction de texte PDF avec Python : dépannage des disparités de sortie

Lorsque vous tentez d'extraire du texte d'un fichier PDF à l'aide de la bibliothèque PyPDF2 de Python, il se produit que le résultat diffère du texte du document PDF. Plus précisément, la sortie est déformée et inclut des caractères illisibles.

Pour extraire efficacement le texte PDF, il est recommandé d'utiliser le package Tika. Contrairement à PyPDF2, il prend en charge l'extraction de texte PDF tout en préservant la mise en forme d'origine.

Voici comment utiliser Tika pour extraire du texte :

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

Notez que Tika s'appuie sur un runtime Java, qui doit être installé avant de l'utiliser avec Python.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn