iTextSharp를 사용하여 PDF에서 텍스트 서식(글꼴, 크기, 스타일)을 어떻게 검색할 수 있습니까?-C++-php.cn

집

백엔드 개발

C++

iTextSharp를 사용하여 PDF에서 텍스트 서식(글꼴, 크기, 스타일)을 어떻게 검색할 수 있습니까?

Barbara Streisand

Jan 11, 2025 am 10:56 AM

How Can I Retrieve Text Formatting (Font, Size, Style) from a PDF Using iTextSharp?

iTextSharp를 사용하여 텍스트 형식을 추출하는 방법

iTextSharp는 효율적인 텍스트 추출 방법을 제공하지만 글꼴, 색상, 크기와 같은 서식 세부정보를 유지하는 데에는 단점이 있을 수 있습니다. 이러한 한계를 극복하기 위해 우리는 대안적인 접근 방식을 모색했습니다.

맞춤형 텍스트 추출 전략

사용자 정의 TextWithFontExtractionStategy 클래스는 ITextExtractionStrategy 인터페이스를 확장하여 형식 정보를 캡처합니다. RenderText 메소드에서:

글꼴 이름, 유사 굵게 사용, 기준선 변경 및 글꼴 크기 변경을 모니터링합니다.
이러한 속성 중 하나라도 변경되면 현재 HTML 범위 태그를 닫고 해당 스타일을 사용하여 새 태그를 만듭니다.

출력 예

다음 C# 코드는 PDF에서 텍스트 및 글꼴 관련 서식을 추출하는 방법을 보여줍니다.

StringBuilder result = new StringBuilder();
PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf"));
TextWithFontExtractionStategy S = new TextWithFontExtractionStategy();
string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S);
Console.WriteLine(F);

생성된 HTML 출력에는 글꼴 모음, 글꼴 크기 및 글꼴 스타일에 대한 태그가 포함되어 있습니다.

기타 고려사항

PostscriptFontName에는 글꼴 하위 설정과 관련된 추가 문자가 포함될 수 있습니다.
예제 코드에서는 기준선의 변경 사항이 HTML의 줄바꿈을 나타낸다고 가정합니다.
현재 추출 프로세스에서는 색상 정보를 캡처하지 않지만 수동으로 캡처할 수 있다는 징후가 있습니다.

위 내용은 iTextSharp를 사용하여 PDF에서 텍스트 서식(글꼴, 크기, 스타일)을 어떻게 검색할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

C# vs. C 성능 : 벤치마킹 및 고려 사항Apr 25, 2025 am 12:25 AM

C#과 C의 성능 차이는 주로 실행 속도 및 리소스 관리에 반영됩니다. 1) C는 일반적으로 하드웨어에 더 가깝고 쓰레기 수집과 같은 추가 오버 헤드가 없기 때문에 수치 계산 및 문자열 작업에서 더 잘 수행됩니다. 2) C#은 다중 스레드 프로그래밍에서 더 간결하지만 성능은 C보다 약간 열등합니다. 3) 선택해야 할 언어는 프로젝트 요구 사항 및 팀 기술 스택을 기반으로 결정해야합니다.

C : 죽어 가거나 단순히 진화하고 있습니까?Apr 24, 2025 am 12:13 AM

c is nontdying; it'sevolving.1) c COMINGDUETOITSTIONTIVENICICICICINICE INPERFORMICALEPPLICATION.2) thelugageIscontinuousUllyUpdated, witcentfeatureslikemodulesandCoroutinestoimproveusActionalance.3) despitechallen

C 현대 세계에서 : 응용 및 산업Apr 23, 2025 am 12:10 AM

C는 현대 세계에서 널리 사용되고 중요합니다. 1) 게임 개발에서 C는 Unrealengine 및 Unity와 같은 고성능 및 다형성에 널리 사용됩니다. 2) 금융 거래 시스템에서 C의 낮은 대기 시간과 높은 처리량은 고주파 거래 및 실시간 데이터 분석에 적합한 첫 번째 선택입니다.

C XML 라이브러리 : 옵션 비교 및 대조Apr 22, 2025 am 12:05 AM

C : Tinyxml-2, Pugixml, XERCES-C 및 RapidXML에는 4 개의 일반적으로 사용되는 XML 라이브러리가 있습니다. 1. TINYXML-2는 자원이 제한적이고 경량이지만 제한된 기능을 가진 환경에 적합합니다. 2. PugixML은 빠르며 복잡한 XML 구조에 적합한 XPath 쿼리를 지원합니다. 3.xerces-c는 강력하고 DOM 및 SAX 해상도를 지원하며 복잡한 처리에 적합합니다. 4. RapidXML은 성능에 중점을두고 매우 빠르게 구문 분석하지만 XPath 쿼리를 지원하지는 않습니다.

C 및 XML : 관계와 지원 탐색Apr 21, 2025 am 12:02 AM

C는 XML과 타사 라이브러리 (예 : TinyXML, Pugixml, Xerces-C)와 상호 작용합니다. 1) 라이브러리를 사용하여 XML 파일을 구문 분석하고 C- 처리 가능한 데이터 구조로 변환하십시오. 2) XML을 생성 할 때 C 데이터 구조를 XML 형식으로 변환하십시오. 3) 실제 애플리케이션에서 XML은 종종 구성 파일 및 데이터 교환에 사용되어 개발 효율성을 향상시킵니다.

C# vs. C : 주요 차이점과 유사성 이해Apr 20, 2025 am 12:03 AM

C#과 C의 주요 차이점은 구문, 성능 및 응용 프로그램 시나리오입니다. 1) C# 구문은 더 간결하고 쓰레기 수집을 지원하며 .NET 프레임 워크 개발에 적합합니다. 2) C는 성능이 높고 시스템 프로그래밍 및 게임 개발에 종종 사용되는 수동 메모리 관리가 필요합니다.

C# vs. C : 역사, 진화 및 미래 전망Apr 19, 2025 am 12:07 AM

C#과 C의 역사와 진화는 독특하며 미래의 전망도 다릅니다. 1.C는 1983 년 Bjarnestroustrup에 의해 발명되어 객체 지향 프로그래밍을 C 언어에 소개했습니다. Evolution 프로세스에는 자동 키워드 소개 및 Lambda Expressions 소개 C 11, C 20 도입 개념 및 코 루틴과 같은 여러 표준화가 포함되며 향후 성능 및 시스템 수준 프로그래밍에 중점을 둘 것입니다. 2.C#은 2000 년 Microsoft에 의해 출시되었으며 C와 Java의 장점을 결합하여 진화는 단순성과 생산성에 중점을 둡니다. 예를 들어, C#2.0은 제네릭과 C#5.0 도입 된 비동기 프로그래밍을 소개했으며, 이는 향후 개발자의 생산성 및 클라우드 컴퓨팅에 중점을 둘 것입니다.