Maison >développement back-end >Tutoriel Python >Pourquoi mon extraction de texte PDF Python produit-elle une sortie tronquée et comment puis-je y remédier ?

Pourquoi mon extraction de texte PDF Python produit-elle une sortie tronquée et comment puis-je y remédier ?

Barbara Streisandoriginal: 2024-12-03 15:53:111041parcourir

Why Does My Python PDF Text Extraction Produce Garbled Output, and How Can I Fix It?

Extraction de texte PDF avec Python : dépannage des disparités de sortie

Lorsque vous tentez d'extraire du texte d'un fichier PDF à l'aide de la bibliothèque PyPDF2 de Python, il se produit que le résultat diffère du texte du document PDF. Plus précisément, la sortie est déformée et inclut des caractères illisibles.

Pour extraire efficacement le texte PDF, il est recommandé d'utiliser le package Tika. Contrairement à PyPDF2, il prend en charge l'extraction de texte PDF tout en préservant la mise en forme d'origine.

Voici comment utiliser Tika pour extraire du texte :

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

Notez que Tika s'appuie sur un runtime Java, qui doit être installé avant de l'utiliser avec Python.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python Java while using

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Comment puis-je éviter les erreurs de clé lors de l'utilisation de BeautifulSoup pour rechercher des éléments HTML par classe ?Article suivant：Comment puis-je éviter les erreurs de clé lors de l'utilisation de BeautifulSoup pour rechercher des éléments HTML par classe ?

Articles Liés

Voir plus