>백엔드 개발 >C++ >iTextSharp를 사용하여 PDF에서 서식이 포함된 텍스트를 추출하는 방법은 무엇입니까?

iTextSharp를 사용하여 PDF에서 서식이 포함된 텍스트를 추출하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2025-01-11 10:46:41861검색

How to Extract Text with Formatting from PDFs Using iTextSharp?

iTextSharp를 사용하여 서식 있는 텍스트 추출

소개:

iTextSharp는 PDF 문서를 조작하고 생성하기 위한 강력한 라이브러리이지만 때로는 원하는 형식으로 텍스트를 추출하는 것이 어려울 수 있습니다. 이 문서에서는 iTextSharp를 사용하여 PDF에서 텍스트 및 서식 정보를 추출하는 방법을 제공합니다.

사용자 정의 추출 전략:

서식 있는 텍스트를 추출하려면 사용자 정의 ITextExtractionStrategy 구현을 생성할 수 있습니다. 이 정책은 텍스트 렌더링 정보가 처리되는 방식을 정의합니다.

코드 조각:

다음 코드는 기준선, 글꼴 이름 및 글꼴 크기의 변경 사항을 추적하고 적절한 스타일을 사용하여 HTML을 생성하는 사용자 정의 전략을 정의합니다.

<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy
{
    // ... (此处省略)

    public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
    {
        // 确定字体属性
        string curFont = renderInfo.GetFont().PostscriptFontName;
        if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText)
        {
            curFont += "-Bold";
        }

        // 检查基线、字体或字体大小的变化
        Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
        Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2];
        if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) ||
            (curFontSize != lastFontSize) || (curFont != lastFont))
        {
            // 生成带有更新样式的HTML span
            result.AppendFormat("</code>

사용법:

맞춤 전략을 사용하려면 텍스트를 추출할 때 이를 지정할 수 있습니다.

<code>PdfReader reader = new PdfReader("MyDocument.pdf");
TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy();
string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>

출력:

textWithFormatting 변수에는 글꼴 및 글꼴 크기를 포함한 서식 정보를 반영하는 HTML 태그와 함께 추출된 텍스트가 포함됩니다.

결론:

이 사용자 정의 추출 전략을 사용하면 원하는 형식으로 PDF 텍스트를 추출할 수 있습니다. 이는 PDF 문서의 텍스트와 스타일을 정확하게 재현하는 데 사용할 수 있는 강력한 도구입니다.

위 내용은 iTextSharp를 사용하여 PDF에서 서식이 포함된 텍스트를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.