Maison >développement back-end >C++ >Comment puis-je extraire avec précision du texte persan ou arabe à partir de PDF à l'aide d'iTextSharp ?
Lire avec précision le contenu PDF
Lorsque vous travaillez avec des fichiers PDF, une extraction précise du contenu est cruciale. Cependant, certains encodages de caractères peuvent poser des problèmes, en particulier lorsque vous travaillez avec du texte non anglais. Cet article explore l'extraction de texte persan ou arabe à partir d'un PDF à l'aide d'iTextSharp.
Problème : Incompatibilité d'encodage
L'extrait de code original fournissait des tentatives de lecture du contenu PDF à l'aide d'iTextSharp. Cependant, lorsqu’il s’agit de textes non anglais, les résultats sont souvent tronqués. Le problème provient d’une incompatibilité d’encodage lors de la conversion d’octet en chaîne.
Solution : Supprimer le transcodage
La solution réside dans la suppression de la ligne de conversion d'encodage du code, qui tente de convertir les octets de l'encodage par défaut en UTF-8. Cette conversion est inutile et peut provoquer des erreurs. En éliminant cette ligne, le code traite correctement le texte en Unicode.
Ce qui suit est le code corrigé :
<code class="language-csharp">public string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { text.Append(pdfReader.GetPlainText(page)); } } return text.ToString(); }</code>
Autres notes
En plus de résoudre les problèmes d'encodage, il est également essentiel de garantir que les applications d'affichage de texte prennent en charge Unicode. Il convient également de vérifier que vous utilisez la dernière version d'iTextSharp.
Conclusion
iTextSharp peut extraire avec précision le texte non anglais des PDF en éliminant les lignes de conversion d'encodage. N'oubliez pas de confirmer la prise en charge d'Unicode dans votre application d'affichage et d'utiliser la dernière version d'iTextSharp pour de meilleures performances. Cette méthode garantira une extraction transparente et correcte du contenu PDF dans différentes langues.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!