>백엔드 개발 >C++ >iTextSharp를 사용하여 PDF에서 텍스트 서식(글꼴, 크기, 스타일)을 어떻게 검색할 수 있습니까?

iTextSharp를 사용하여 PDF에서 텍스트 서식(글꼴, 크기, 스타일)을 어떻게 검색할 수 있습니까?

Barbara Streisand
Barbara Streisand원래의
2025-01-11 10:56:42498검색

How Can I Retrieve Text Formatting (Font, Size, Style) from a PDF Using iTextSharp?

iTextSharp를 사용하여 텍스트 형식을 추출하는 방법

iTextSharp는 효율적인 텍스트 추출 방법을 제공하지만 글꼴, 색상, 크기와 같은 서식 세부정보를 유지하는 데에는 단점이 있을 수 있습니다. 이러한 한계를 극복하기 위해 우리는 대안적인 접근 방식을 모색했습니다.

맞춤형 텍스트 추출 전략

사용자 정의 TextWithFontExtractionStategy 클래스는 ITextExtractionStrategy 인터페이스를 확장하여 형식 정보를 캡처합니다. RenderText 메소드에서:

  • 글꼴 이름, 유사 굵게 사용, 기준선 변경 및 글꼴 크기 변경을 모니터링합니다.
  • 이러한 속성 중 하나라도 변경되면 현재 HTML 범위 태그를 닫고 해당 스타일을 사용하여 새 태그를 만듭니다.

출력 예

다음 C# 코드는 PDF에서 텍스트 및 글꼴 관련 서식을 추출하는 방법을 보여줍니다.

<code class="language-csharp">StringBuilder result = new StringBuilder();
PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf"));
TextWithFontExtractionStategy S = new TextWithFontExtractionStategy();
string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S);
Console.WriteLine(F);</code>

생성된 HTML 출력에는 글꼴 모음, 글꼴 크기 및 글꼴 스타일에 대한 태그가 포함되어 있습니다.

기타 고려사항

  • PostscriptFontName에는 글꼴 하위 설정과 관련된 추가 문자가 포함될 수 있습니다.
  • 예제 코드에서는 기준선의 변경 사항이 HTML의 줄바꿈을 나타낸다고 가정합니다.
  • 현재 추출 프로세스에서는 색상 정보를 캡처하지 않지만 수동으로 캡처할 수 있다는 징후가 있습니다.

위 내용은 iTextSharp를 사용하여 PDF에서 텍스트 서식(글꼴, 크기, 스타일)을 어떻게 검색할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.