Maison >développement back-end >Tutoriel Python >Pourquoi mon extraction de texte PDF Python produit-elle une sortie tronquée et comment puis-je y remédier ?
Extraction de texte PDF avec Python : dépannage des disparités de sortie
Lorsque vous tentez d'extraire du texte d'un fichier PDF à l'aide de la bibliothèque PyPDF2 de Python, il se produit que le résultat diffère du texte du document PDF. Plus précisément, la sortie est déformée et inclut des caractères illisibles.
Pour extraire efficacement le texte PDF, il est recommandé d'utiliser le package Tika. Contrairement à PyPDF2, il prend en charge l'extraction de texte PDF tout en préservant la mise en forme d'origine.
Voici comment utiliser Tika pour extraire du texte :
from tika import parser # pip install tika raw = parser.from_file('sample.pdf') print(raw['content'])
Notez que Tika s'appuie sur un runtime Java, qui doit être installé avant de l'utiliser avec Python.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!