ホームページ >バックエンド開発 >C++ >iTextSharp を使用して PDF からペルシア語またはアラビア語のテキストを正確に抽出するにはどうすればよいですか?

iTextSharp を使用して PDF からペルシア語またはアラビア語のテキストを正確に抽出するにはどうすればよいですか?

DDD
DDDオリジナル
2025-01-11 08:08:42792ブラウズ

How Can I Accurately Extract Persian or Arabic Text from PDFs Using iTextSharp?

PDF コンテンツを正確に読み取る

PDF ファイルを操作する場合、コンテンツを正確に抽出することが重要です。ただし、特定の文字エンコーディングは、特に英語以外のテキストを扱う場合に問題を引き起こす可能性があります。この記事では、iTextSharp を使用して PDF からペルシア語またはアラビア語のテキストを抽出する方法について説明します。

問題: エンコーディングの不一致

元のコード スニペットでは、iTextSharp を使用して PDF コンテンツを読み取る試みが提供されています。ただし、英語以外のテキストを扱う場合、結果が文字化けすることがよくあります。この問題は、バイトから文字列への変換時のエンコードの不一致が原因で発生します。

解決策: トランスコーディングを削除します

解決策は、バイトをデフォルトのエンコーディングから UTF-8 に変換しようとするエンコーディング変換行をコードから削除することです。この変換は不要であり、エラーが発生する可能性があります。この行を削除すると、コードはテキストを Unicode として正しく処理します。

以下は修正されたコードです:

<code class="language-csharp">public string ReadPdfFile(string fileName)
{
    StringBuilder text = new StringBuilder();

    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            text.Append(pdfReader.GetPlainText(page));
        }
    }

    return text.ToString();
}</code>

その他の注意事項

エンコードの問題を解決することに加えて、テキスト表示アプリケーションが Unicode をサポートしていることを確認することも重要です。最新バージョンの iTextSharp を使用していることを確認することも重要です。

結論

iTextSharp は、エンコード変換行を排除することで、PDF から英語以外のテキストを正確に抽出できます。最高のパフォーマンスを得るために、表示アプリケーションで Unicode がサポートされていることを必ず確認し、最新の iTextSharp バージョンを使用してください。この方法により、さまざまな言語で PDF コンテンツをシームレスかつ正確に抽出できます。

以上がiTextSharp を使用して PDF からペルシア語またはアラビア語のテキストを正確に抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。