iTextSharp를 사용하여 서식 있는 텍스트 추출
소개:
iTextSharp는 PDF 문서를 조작하고 생성하기 위한 강력한 라이브러리이지만 때로는 원하는 형식으로 텍스트를 추출하는 것이 어려울 수 있습니다. 이 문서에서는 iTextSharp를 사용하여 PDF에서 텍스트 및 서식 정보를 추출하는 방법을 제공합니다.
사용자 정의 추출 전략:
서식 있는 텍스트를 추출하려면 사용자 정의 ITextExtractionStrategy 구현을 생성할 수 있습니다. 이 정책은 텍스트 렌더링 정보가 처리되는 방식을 정의합니다.
코드 조각:
다음 코드는 기준선, 글꼴 이름 및 글꼴 크기의 변경 사항을 추적하고 적절한 스타일을 사용하여 HTML을 생성하는 사용자 정의 전략을 정의합니다.
<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy { // ... (此处省略) public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo) { // 确定字体属性 string curFont = renderInfo.GetFont().PostscriptFontName; if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText) { curFont += "-Bold"; } // 检查基线、字体或字体大小的变化 Vector curBaseline = renderInfo.GetBaseline().GetStartPoint(); Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2]; if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) || (curFontSize != lastFontSize) || (curFont != lastFont)) { // 生成带有更新样式的HTML span result.AppendFormat("</code>
사용법:
맞춤 전략을 사용하려면 텍스트를 추출할 때 이를 지정할 수 있습니다.
<code>PdfReader reader = new PdfReader("MyDocument.pdf"); TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy(); string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>
출력:
textWithFormatting 변수에는 글꼴 및 글꼴 크기를 포함한 서식 정보를 반영하는 HTML 태그와 함께 추출된 텍스트가 포함됩니다.
결론:
이 사용자 정의 추출 전략을 사용하면 원하는 형식으로 PDF 텍스트를 추출할 수 있습니다. 이는 PDF 문서의 텍스트와 스타일을 정확하게 재현하는 데 사용할 수 있는 강력한 도구입니다.
위 내용은 iTextSharp를 사용하여 PDF에서 서식이 포함된 텍스트를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!