Maison >développement back-end >C++ >Comment puis-je extraire avec précision du texte persan ou arabe à partir de PDF à l'aide d'iTextSharp ?

Comment puis-je extraire avec précision du texte persan ou arabe à partir de PDF à l'aide d'iTextSharp ?

DDDoriginal: 2025-01-11 08:08:42791parcourir

How Can I Accurately Extract Persian or Arabic Text from PDFs Using iTextSharp?

Lire avec précision le contenu PDF

Lorsque vous travaillez avec des fichiers PDF, une extraction précise du contenu est cruciale. Cependant, certains encodages de caractères peuvent poser des problèmes, en particulier lorsque vous travaillez avec du texte non anglais. Cet article explore l'extraction de texte persan ou arabe à partir d'un PDF à l'aide d'iTextSharp.

Problème : Incompatibilité d'encodage

L'extrait de code original fournissait des tentatives de lecture du contenu PDF à l'aide d'iTextSharp. Cependant, lorsqu’il s’agit de textes non anglais, les résultats sont souvent tronqués. Le problème provient d’une incompatibilité d’encodage lors de la conversion d’octet en chaîne.

Solution : Supprimer le transcodage

La solution réside dans la suppression de la ligne de conversion d'encodage du code, qui tente de convertir les octets de l'encodage par défaut en UTF-8. Cette conversion est inutile et peut provoquer des erreurs. En éliminant cette ligne, le code traite correctement le texte en Unicode.

Ce qui suit est le code corrigé :

<code class="language-csharp">public string ReadPdfFile(string fileName)
{
    StringBuilder text = new StringBuilder();

    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            text.Append(pdfReader.GetPlainText(page));
        }
    }

    return text.ToString();
}</code>

Autres notes

En plus de résoudre les problèmes d'encodage, il est également essentiel de garantir que les applications d'affichage de texte prennent en charge Unicode. Il convient également de vérifier que vous utilisez la dernière version d'iTextSharp.

Conclusion

iTextSharp peut extraire avec précision le texte non anglais des PDF en éliminant les lignes de conversion d'encodage. N'oubliez pas de confirmer la prise en charge d'Unicode dans votre application d'affichage et d'utiliser la dernière version d'iTextSharp pour de meilleures performances. Cette méthode garantira une extraction transparente et correcte du contenu PDF dans différentes langues.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

字符串 using

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：ObservableCollection ou BindingList : quelle collection dois-je utiliser pour la liaison de données ?Article suivant：ObservableCollection ou BindingList : quelle collection dois-je utiliser pour la liaison de données ?

Articles Liés

Voir plus