>백엔드 개발 >C++ >iTextSharp를 사용하여 텍스트 서식 정보(글꼴, 크기 등)를 어떻게 추출할 수 있습니까?

iTextSharp를 사용하여 텍스트 서식 정보(글꼴, 크기 등)를 어떻게 추출할 수 있습니까?

Barbara Streisand
Barbara Streisand원래의
2025-01-11 09:42:46186검색

How Can I Extract Text Formatting Information (Font, Size, etc.) Using iTextSharp?

iTextSharp를 사용하여 PDF 텍스트 형식 정보(글꼴, 크기 등) 추출

iTextSharp 라이브러리는 PDF 텍스트와 글꼴 및 글꼴 크기와 같은 서식 정보를 추출할 수 있습니다. 다음은 TextWithFontExtractionStrategy을 사용하여 이 기능을 구현하는 방법의 예입니다.

<code class="language-csharp">PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf"));
TextWithFontExtractionStrategy strategy = new TextWithFontExtractionStrategy();
string text = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, strategy);
Console.WriteLine(text);</code>

TextWithFontExtractionStrategyTextRenderInfo 개체를 사용하여 PDF 콘텐츠에서 텍스트 형식 정보를 추출합니다. TextRenderInfo 객체에는 GetFont, GetFontName, GetFontSize, GetBaseline, GetAscentLine과 같은 속성이 포함되어 있습니다.

이러한 속성을 사용하여 텍스트의 글꼴 모음, 글꼴 크기 및 기준선 위치를 가져올 수 있습니다. 다음은 이러한 속성을 사용하여 텍스트 서식 정보를 추출하는 방법에 대한 예입니다.

<code class="language-csharp">// 获取字体系列
string fontFamily = renderInfo.GetFont().PostscriptFontName;

// 获取字号
float fontSize = renderInfo.GetBaseline().GetEndPoint()[Vector.I2] - renderInfo.GetBaseline().GetStartPoint()[Vector.I2];

// 获取基线位置
Vector baseline = renderInfo.GetBaseline().GetStartPoint();</code>

renderInfo에서 반환된 텍스트를 처리하는 동안 TextWithFontExtractionStrategy 개체를 가져와야 합니다. 전체 코드에는 각 줄이나 텍스트 조각에서 형식 지정 정보를 추출하기 위해 TextRenderInfo 개체를 처리하는 루프가 포함되어야 합니다. 위의 예는 TextRenderInfo 객체의 속성에 액세스하는 방법만 보여줍니다.

위 내용은 iTextSharp를 사용하여 텍스트 서식 정보(글꼴, 크기 등)를 어떻게 추출할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.