ホームページ >バックエンド開発 >C++ >iTextSharp を使用してテキストの書式設定情報 (フォント、サイズなど) を抽出するにはどうすればよいですか?

iTextSharp を使用してテキストの書式設定情報 (フォント、サイズなど) を抽出するにはどうすればよいですか?

Barbara Streisand
Barbara Streisandオリジナル
2025-01-11 09:42:46164ブラウズ

How Can I Extract Text Formatting Information (Font, Size, etc.) Using iTextSharp?

iTextSharp を使用して PDF テキスト形式情報 (フォント、サイズなど) を抽出します

iTextSharp ライブラリは、PDF テキストとその書式設定情報 (フォントやフォント サイズなど) を抽出できます。 TextWithFontExtractionStrategy を使用してこの機能を実現する方法の例を次に示します。

<code class="language-csharp">PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf"));
TextWithFontExtractionStrategy strategy = new TextWithFontExtractionStrategy();
string text = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, strategy);
Console.WriteLine(text);</code>

TextWithFontExtractionStrategyTextRenderInfo オブジェクトを使用して、PDF コンテンツからテキスト形式の情報を抽出します。 TextRenderInfo オブジェクトには、GetFontGetFontNameGetFontSizeGetBaselineGetAscentLine などの属性が含まれます。

これらのプロパティを使用して、テキストのフォント ファミリー、フォント サイズ、ベースラインの位置を取得できます。これらのプロパティを使用してテキストの書式設定情報を抽出する方法の例を次に示します:

<code class="language-csharp">// 获取字体系列
string fontFamily = renderInfo.GetFont().PostscriptFontName;

// 获取字号
float fontSize = renderInfo.GetBaseline().GetEndPoint()[Vector.I2] - renderInfo.GetBaseline().GetStartPoint()[Vector.I2];

// 获取基线位置
Vector baseline = renderInfo.GetBaseline().GetStartPoint();</code>

renderInfo オブジェクトは、TextWithFontExtractionStrategy によって返されたテキストの処理中に取得する必要があることに注意してください。 完全なコードには、各行またはテキストの断片から書式設定情報を抽出するために、TextRenderInfo オブジェクトを処理するループが含まれる必要があります。 上記の例は、TextRenderInfo オブジェクトのプロパティにアクセスする方法のみを示しています。

以上がiTextSharp を使用してテキストの書式設定情報 (フォント、サイズなど) を抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。