찾다
백엔드 개발C++iTextSharp를 사용하여 PDF에서 서식이 포함된 텍스트를 추출하는 방법은 무엇입니까?

How to Extract Text with Formatting from PDFs Using iTextSharp?

iTextSharp를 사용하여 서식 있는 텍스트 추출

소개:

iTextSharp는 PDF 문서를 조작하고 생성하기 위한 강력한 라이브러리이지만 때로는 원하는 형식으로 텍스트를 추출하는 것이 어려울 수 있습니다. 이 문서에서는 iTextSharp를 사용하여 PDF에서 텍스트 및 서식 정보를 추출하는 방법을 제공합니다.

사용자 정의 추출 전략:

서식 있는 텍스트를 추출하려면 사용자 정의 ITextExtractionStrategy 구현을 생성할 수 있습니다. 이 정책은 텍스트 렌더링 정보가 처리되는 방식을 정의합니다.

코드 조각:

다음 코드는 기준선, 글꼴 이름 및 글꼴 크기의 변경 사항을 추적하고 적절한 스타일을 사용하여 HTML을 생성하는 사용자 정의 전략을 정의합니다.

<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy
{
    // ... (此处省略)

    public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
    {
        // 确定字体属性
        string curFont = renderInfo.GetFont().PostscriptFontName;
        if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText)
        {
            curFont += "-Bold";
        }

        // 检查基线、字体或字体大小的变化
        Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
        Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2];
        if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) ||
            (curFontSize != lastFontSize) || (curFont != lastFont))
        {
            // 生成带有更新样式的HTML span
            result.AppendFormat("</code>

사용법:

맞춤 전략을 사용하려면 텍스트를 추출할 때 이를 지정할 수 있습니다.

<code>PdfReader reader = new PdfReader("MyDocument.pdf");
TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy();
string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>

출력:

textWithFormatting 변수에는 글꼴 및 글꼴 크기를 포함한 서식 정보를 반영하는 HTML 태그와 함께 추출된 텍스트가 포함됩니다.

결론:

이 사용자 정의 추출 전략을 사용하면 원하는 형식으로 PDF 텍스트를 추출할 수 있습니다. 이는 PDF 문서의 텍스트와 스타일을 정확하게 재현하는 데 사용할 수 있는 강력한 도구입니다.

위 내용은 iTextSharp를 사용하여 PDF에서 서식이 포함된 텍스트를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
C# vs. C : 프로그래밍 언어의 비교 분석C# vs. C : 프로그래밍 언어의 비교 분석May 04, 2025 am 12:03 AM

C#과 C의 주요 차이점은 구문, 메모리 관리 및 성능입니다. 1) C# Syntax는 현대적이며 Lambda 및 Linq를 지원하며 C 기능을 유지하고 템플릿을 지원합니다. 2) C# 자동으로 메모리를 관리하고 C는 수동으로 관리해야합니다. 3) C 성능은 C#보다 낫지 만 C# 성능도 최적화되고 있습니다.

C를 사용하여 XML 애플리케이션 구축 : 실제 예제C를 사용하여 XML 애플리케이션 구축 : 실제 예제May 03, 2025 am 12:16 AM

tinyxml, pugixml 또는 libxml2 라이브러리를 사용하여 C에서 XML 데이터를 처리 할 수 ​​있습니다. 1) XML 파일을 구문 분석 할 수 있습니다. dom 또는 sax 메소드 사용, dom은 작은 파일에 적합하며 Sax는 큰 파일에 적합합니다. 2) XML 파일 생성 : 데이터 구조를 XML 형식으로 변환하고 파일에 씁니다. 이러한 단계를 통해 XML 데이터를 효과적으로 관리하고 조작 할 수 있습니다.

C의 XML : 복잡한 데이터 구조 처리C의 XML : 복잡한 데이터 구조 처리May 02, 2025 am 12:04 AM

C에서 XML 데이터 구조로 작업하면 tinyxml 또는 pugixml 라이브러리를 사용할 수 있습니다. 1) pugixml 라이브러리를 사용하여 XML 파일을 구문 분석하고 생성하십시오. 2) 책 정보와 같은 복잡한 중첩 XML 요소를 처리합니다. 3) XML 처리 코드를 최적화하면 효율적인 라이브러리 및 스트리밍 구문 분석을 사용하는 것이 좋습니다. 이러한 단계를 통해 XML 데이터를 효율적으로 처리 할 수 ​​있습니다.

C 및 성능 : 여전히 지배적 인 곳C 및 성능 : 여전히 지배적 인 곳May 01, 2025 am 12:14 AM

C는 낮은 수준의 메모리 관리 및 효율적인 실행 기능으로 인해 게임 개발, 금융 거래 시스템 및 임베디드 시스템에 없어서는 안될 것이기 때문에 여전히 성능 최적화를 지배합니다. 구체적으로, 그것은 다음과 같이 나타납니다. 1) 게임 개발에서 C의 저수준 메모리 관리 및 효율적인 실행 기능은 게임 엔진 개발에 선호되는 언어가됩니다. 2) 금융 거래 시스템에서 C의 성능 장점은 대기 시간이 매우 낮고 처리량이 높음을 보장합니다. 3) 임베디드 시스템에서 C의 저수준 메모리 관리 및 효율적인 실행 기능은 자원 제약 환경에서 매우 인기가 있습니다.

C XML 프레임 워크 : 올바른 프레임 워크 선택C XML 프레임 워크 : 올바른 프레임 워크 선택Apr 30, 2025 am 12:01 AM

C XML 프레임 워크의 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1) TinyXML은 자원으로 제한된 환경에 적합합니다. 2) PugixML은 고성능 요구 사항에 적합합니다. 3) XERCES-C는 복잡한 XMLSCHEMA 검증 및 성능, 사용 편의성 및 라이센스를 고려해야합니다.

C# vs. C : 프로젝트에 적합한 언어 선택C# vs. C : 프로젝트에 적합한 언어 선택Apr 29, 2025 am 12:51 AM

C#은 개발 효율성과 유형 안전이 필요한 프로젝트에 적합한 반면 C#은 고성능 및 하드웨어 제어가 필요한 프로젝트에 적합합니다. 1) C#은 기업 애플리케이션 및 Windows 개발에 적합한 가비지 컬렉션 및 LINQ를 제공합니다. 2) C는 고성능 및 기본 제어로 유명하며 게임 및 시스템 프로그래밍에 널리 사용됩니다.

코드를 최적화하는 방법코드를 최적화하는 방법Apr 28, 2025 pm 10:27 PM

C 코드 최적화는 다음 전략을 통해 달성 할 수 있습니다. 1. 최적화 사용을 위해 메모리를 수동으로 관리합니다. 2. 컴파일러 최적화 규칙을 준수하는 코드를 쓰십시오. 3. 적절한 알고리즘 및 데이터 구조를 선택하십시오. 4. 인라인 함수를 사용하여 통화 오버 헤드를 줄입니다. 5. 템플릿 메타 프로 그램을 적용하여 컴파일 시간에 최적화하십시오. 6. 불필요한 복사를 피하고 움직이는 의미와 참조 ​​매개 변수를 사용하십시오. 7. Const를 올바르게 사용하여 컴파일러 최적화를 돕습니다. 8. std :: 벡터와 같은 적절한 데이터 구조를 선택하십시오.

C의 휘발성 키워드를 이해하는 방법은 무엇입니까?C의 휘발성 키워드를 이해하는 방법은 무엇입니까?Apr 28, 2025 pm 10:24 PM

C의 휘발성 키워드는 변수 값이 코드 제어 외부에서 변경 될 수 있으므로 최적화 할 수 없음을 컴파일러에게 알리는 데 사용됩니다. 1) 종종 센서 상태와 같은 하드웨어 또는 인터럽트 서비스 프로그램에 의해 수정 될 수있는 변수를 읽는 데 사용됩니다. 2) 휘발성은 멀티 스레드 안전을 보장 할 수 없으며 뮤텍스 잠금 장치 또는 원자 작업을 사용해야합니다. 3) 휘발성을 사용하면 성능이 약간 줄어들 수 있지만 프로그램 정확성을 보장 할 수 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구