iTextSharp によるテキスト書式抽出の強化
iTextSharp のデフォルトの PDF テキスト抽出は、フォント スタイルや色などの高度な書式設定に関して精度が不足しています。この記事では、この制限を克服するための解決策を紹介します。
優れた抽出アプローチ:
標準の抽出方法に依存する代わりに、「TextWithFontExtractionStategy」などのカスタム戦略を利用します。このアプローチでは、ベースライン、フォント名、サイズの変更を追跡し、書式設定の変更を正確に特定します。
スタイル付き HTML 出力:
この改善された戦略では、各テキスト セグメントにスタイル タグを埋め込んだ HTML 出力が生成されます。これにより、抽出されたデータ内の書式設定の詳細が保持されます。
実装の詳細:
提供されたコード サンプルは、この強化された戦略を実装し、フォーマットされた HTML 出力を生成する方法を示しています。 テキストの抽出とレンダリングには ITextExtractionStrategy
インターフェースを利用します。
高度なレンダリング機能:
この戦略には、「擬似太字」フォント (塗りつぶしとストロークのレンダリングを使用して視覚的に太字にしたフォント) の検出が含まれます。 これを反映するために、HTML 出力のフォント名に「-Bold」が追加されます。
カスタマイズオプション:
この戦略は非常に適応性があります。特定のスタイルのニーズや好みに合わせて HTML 形式を変更できます。
概要:
この強化された抽出戦略を iTextSharp アプリケーションに統合することにより、テキスト書式抽出の精度と汎用性が大幅に向上し、PDF ドキュメントからより豊富な情報を取り込むことができます。
以上がiTextSharp でのテキスト書式抽出を改善するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。