iTextSharp を使用してテキスト形式を抽出する方法
iTextSharp は効率的なテキスト抽出方法を提供しますが、フォント、色、サイズなどの書式設定の詳細を保持する点で欠点がある可能性があります。この制限を克服するために、私たちは別のアプローチを検討しました。
カスタマイズされたテキスト抽出戦略
カスタム TextWithFontExtractionStategy
クラスは、形式情報を取得するために ITextExtractionStrategy
インターフェイスを拡張します。 RenderText
メソッド内:
出力例
次の C# コードは、PDF からテキストとフォント関連の書式設定を抽出する方法を示しています。
<code class="language-csharp">StringBuilder result = new StringBuilder(); PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStategy S = new TextWithFontExtractionStategy(); string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S); Console.WriteLine(F);</code>
生成された HTML 出力には、フォント ファミリ、フォント サイズ、フォント スタイルのタグが含まれています。
その他の考慮事項
PostscriptFontName
には、フォントのサブセット化に関連する可能性のある追加の文字が含まれる場合があります。 以上がiTextSharp を使用して PDF からテキストの書式設定 (フォント、サイズ、スタイル) を取得するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。