iTextSharp를 사용하여 텍스트 형식을 추출하는 방법
iTextSharp는 효율적인 텍스트 추출 방법을 제공하지만 글꼴, 색상, 크기와 같은 서식 세부정보를 유지하는 데에는 단점이 있을 수 있습니다. 이러한 한계를 극복하기 위해 우리는 대안적인 접근 방식을 모색했습니다.
맞춤형 텍스트 추출 전략
사용자 정의 TextWithFontExtractionStategy
클래스는 ITextExtractionStrategy
인터페이스를 확장하여 형식 정보를 캡처합니다. RenderText
메소드에서:
출력 예
다음 C# 코드는 PDF에서 텍스트 및 글꼴 관련 서식을 추출하는 방법을 보여줍니다.
<code class="language-csharp">StringBuilder result = new StringBuilder(); PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStategy S = new TextWithFontExtractionStategy(); string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S); Console.WriteLine(F);</code>
생성된 HTML 출력에는 글꼴 모음, 글꼴 크기 및 글꼴 스타일에 대한 태그가 포함되어 있습니다.
기타 고려사항
PostscriptFontName
에는 글꼴 하위 설정과 관련된 추가 문자가 포함될 수 있습니다. 위 내용은 iTextSharp를 사용하여 PDF에서 텍스트 서식(글꼴, 크기, 스타일)을 어떻게 검색할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!