iTextSharp로 텍스트 서식 추출 강화
iTextSharp의 기본 PDF 텍스트 추출은 글꼴 스타일 및 색상과 같은 고급 서식의 경우 정밀도가 부족합니다. 이 글에서는 이러한 한계를 극복할 수 있는 솔루션을 제시합니다.
우수한 추출 접근 방식:
표준 추출 방법에 의존하는 대신 "TextWithFontExtractionStategy"와 같은 맞춤 전략을 활용하세요. 이 접근 방식은 기준선, 글꼴 이름 및 크기의 변경 사항을 추적하여 서식 변경을 정확하게 식별합니다.
스타일 HTML 출력:
이 향상된 전략은 각 텍스트 세그먼트에 스타일 태그를 삽입하여 HTML 출력을 생성합니다. 이렇게 하면 추출된 데이터 내의 형식 세부 정보가 보존됩니다.
구현 세부정보:
제공된 코드 샘플은 이 향상된 전략을 구현하고 형식화된 HTML 출력을 생성하는 방법을 보여줍니다. 텍스트 추출 및 렌더링을 위해 ITextExtractionStrategy
인터페이스를 활용합니다.
고급 렌더링 기능:
이 전략에는 "가짜 굵은" 글꼴(채우기 및 획 렌더링을 사용하여 시각적으로 굵은 글꼴) 감지가 포함됩니다. 이를 반영하기 위해 HTML 출력의 글꼴 이름에 "-Bold"를 추가합니다.
맞춤 설정 옵션:
전략의 적응력이 뛰어납니다. 특정 스타일 요구 사항과 선호도에 맞게 HTML 형식을 수정할 수 있습니다.
요약:
이 향상된 추출 전략을 iTextSharp 애플리케이션에 통합하면 텍스트 서식 추출의 정확성과 다양성이 크게 향상되어 PDF 문서에서 더 풍부한 정보를 캡처할 수 있습니다.
위 내용은 iTextSharp에서 텍스트 서식 추출을 어떻게 향상시킬 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!