ホームページ >バックエンド開発 >C++ >iTextSharp を使用して PDF からテキストの書式設定 (フォント、サイズ、スタイル) を取得するにはどうすればよいですか?

iTextSharp を使用して PDF からテキストの書式設定 (フォント、サイズ、スタイル) を取得するにはどうすればよいですか?

Barbara Streisand
Barbara Streisandオリジナル
2025-01-11 10:56:42495ブラウズ

How Can I Retrieve Text Formatting (Font, Size, Style) from a PDF Using iTextSharp?

iTextSharp を使用してテキスト形式を抽出する方法

iTextSharp は効率的なテキスト抽出方法を提供しますが、フォント、色、サイズなどの書式設定の詳細を保持する点で欠点がある可能性があります。この制限を克服するために、私たちは別のアプローチを検討しました。

カスタマイズされたテキスト抽出戦略

カスタム TextWithFontExtractionStategy クラスは、形式情報を取得するために ITextExtractionStrategy インターフェイスを拡張します。 RenderText メソッド内:

  • フォント名、疑似太字の使用、ベースラインの変更、フォント サイズの変更を監視します。
  • これらの属性のいずれかが変更されると、現在の HTML の span タグが閉じられ、対応するスタイルで新しいタグが作成されます。

出力例

次の C# コードは、PDF からテキストとフォント関連の書式設定を抽出する方法を示しています。

<code class="language-csharp">StringBuilder result = new StringBuilder();
PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf"));
TextWithFontExtractionStategy S = new TextWithFontExtractionStategy();
string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S);
Console.WriteLine(F);</code>

生成された HTML 出力には、フォント ファミリ、フォント サイズ、フォント スタイルのタグが含まれています。

その他の考慮事項

  • PostscriptFontName には、フォントのサブセット化に関連する可能性のある追加の文字が含まれる場合があります。
  • コード例では、ベースラインの変更が HTML の改行を表すことを前提としています。
  • 現時点では、抽出プロセスでは色情報が取得されませんが、これを手動で取得できる可能性があるという兆候があります。

以上がiTextSharp を使用して PDF からテキストの書式設定 (フォント、サイズ、スタイル) を取得するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。