ホームページ >バックエンド開発 >C++ >C# で iTextSharp を使用して PDF からテキストを抽出する際のエンコーディングの問題を解決するにはどうすればよいですか?

C# で iTextSharp を使用して PDF からテキストを抽出する際のエンコーディングの問題を解決するにはどうすればよいですか?

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2025-01-11 06:26:42386ブラウズ

How Can I Resolve Encoding Issues When Extracting Text from PDFs Using iTextSharp in C#?

C# での iTextSharp PDF テキスト抽出のトラブルシューティング

C# で iTextSharp を使用して PDF からテキストを抽出すると、特に英語以外の文字を扱う場合に問題が発生する可能性があります。 ペルシア語やアラビア語などの言語では問題が頻繁に発生し、出力が破損したり判読不能になったりします。

エンコードエラーの修正

これらの問題の主な原因は、多くの場合、不必要なエンコード変換にあります。 このよくある落とし穴を避けてください:

<code class="language-csharp">currentText = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.UTF8.GetBytes(currentText)));</code>

このコードは複数のエンコード変換を試行するため、頻繁にエラーが発生します。 代わりに、テキスト抽出を簡素化します:

<code class="language-csharp">currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);</code>

この合理化されたアプローチではテキストが直接取得され、エンコード関連の問題のリスクが最小限に抑えられます。

さらに考慮すべき点

エンコード以外にも、テキスト表示メカニズムが Unicode 文字を完全にサポートしていることを確認してください。 最新の iTextSharp ライブラリを使用することもお勧めします。

これらの修正を行ったとしても、特にアラビア語などの右から左に記述する言語では、テキストの順序が崩れて表示される可能性があります。これは、一部の PDF でのテキスト レンダリングの処理方法に起因する既知の制限です (PDF 2008 仕様、14.8.2.3.3 で詳しく説明されています)。 これを解決するには、PDF の構造をより詳細に分析して、抽出されたテキストを正しく並べ替える必要があります。

以上がC# で iTextSharp を使用して PDF からテキストを抽出する際のエンコーディングの問題を解決するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。