업데이트
2014년 2월 27일: 이 기사는 원래 PDFBox를 사용하여 PDF 파일을 구문 분석하는 것에 대해서만 설명했습니다. 이제 IFilter 및 iTextSharp를 사용하기 위한 루틴을 포함하도록 확장되었습니다.
이 글과 해당 Visual Studio 프로젝트가 최신 PDFBox 버전(1.8.4)으로 업데이트되었습니다. 모든 종속성이 포함된 전체 프로젝트는 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/에서 다운로드할 수 있습니다(종속성을 제거하는 것은 약간 까다롭습니다).
PDF 파일을 구문 분석하는 방법
.NET의 PDF 파일에서 텍스트를 추출하는 주요 방법은 다음과 같습니다.
Microsoft의 IFilter 인터페이스 및 Adobe의 IFilter 구현. >iTextSharp
PDFBox.
불행하게도 이러한 PDF 구문 분석 솔루션 중 완벽한 것은 없습니다. 아래에서는 이러한 방법에 대해 설명합니다.
Adobe PDF IFilter
IFilter 인터페이스를 사용하여 PDF 파일을 구문 분석하려면 다음이 필요합니다.
Windows 2000 이상 버전
Adobe Acrobat 또는 Reader 7.0 이상(또는 별도의 Adobe PDF IFilter [adobe.com])
IFilter COM 래퍼 클래스 [dotlucene.net]
샘플 코드:
단점:using IFilter; // ... public static string ExtractTextFromPdf(string path) { return DefaultParser.Extract(path); }
IFilter 인터페이스를 처리하기 위해 신뢰할 수 없는 COM 상호 운용성을 사용합니다(IFilter COM과 Adobe PDF IFilter를 결합하는 것은 특히 문제가 됩니다).
대상 시스템에는 Adobe IFilter를 별도로 설치해야 합니다. 색인 생성 가능한 솔루션을 다른 사람에게 게시해야 하는 경우에는 고통스럽습니다.
iTextSharp
iTextSharp(http://sourceforge.net/projects/itextsharp/)는 Java PDF 작업 라이브러리 iText(http://itextpdf.com/) .NET 출력입니다. 주로 PDF를 읽는 것보다 편집하는 데 중점을 두고 있지만 확실히 PDF에서 텍스트 추출도 지원합니다(약간 과잉이긴 하지만).
루틴:
크레딧: 회원번호 10364982using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; // ... public static string ExtractTextFromPdf(string path) { using (PdfReader reader = new PdfReader(path)) { StringBuilder text = new StringBuilder(); for (int i = 1; i <= reader.NumberOfPages; i++) { text.Append(PdfTextExtractor.GetTextFromPage(reader, i)); } return text.ToString(); } }
단점:
라이센스 필요(AGPL 라이센스가 마음에 들지 않는 경우) )
PDFBox
PDFBox는 또 다른 Java PDF 클래스 라이브러리입니다. 또한 원본 Java Lucene과 함께 사용할 수도 있습니다(LucenePDFDocument 참조).
다행히 PDFBox에는 IKVM.NET을 사용하여 개발된 .NET 버전이 있습니다(PDFBox 다운로드 페이지를 방문하세요).
.NET에서 PDFBox를 사용하려면
IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8을 인용해야 합니다. 4.dll
그리고 다음 파일을 bin 폴더에 복사합니다:
commons-logging.dll
fontbox-1.8.4.dll
IKVM .OpenJDK.Util.dll
IKVM.Runtime.dll
PDFBox를 사용하여 PDF를 구문 분석하는 것은 매우 간단합니다.
총 컴파일된 크기는 거의 18MB입니다.using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.util; // ... private static string ExtractTextFromPdf(string path) { PDDocument doc = null; try { doc = PDDocument.load(path) PDFTextStripper stripper = new PDFTextStripper(); return stripper.getText(doc); } finally { if (doc != null) { doc.close(); } } }
IKVM.OpenJDK.Core.dll(4MB)
IKVM.OpenJDK.SwingAWT.dll(6MB)
pdfbox-1.8.4.dll(4MB)
commons-logging.dll(82kB)
fontbox-1.8.4.dll(180kB)
IKVM.OpenJDK.Util.dll(2MB)
IKVM.Runtime.dll(1MB)
속도는 괜찮습니다. 미국 저작권법 PDF(5.1MB) 파일을 구문 분석하는 데 13초가 걸렸습니다.
개선 제안을 해주신 bobrien100님께 감사드립니다.
단점:
IKVM.NET 종속성(18MB)
속도 (특히 IKVM.NET 시작 시간)

C#은 프로그래밍 언어이며 .NET은 소프트웨어 프레임 워크입니다. 1.C#은 Microsoft에 의해 개발되었으며 다중 플랫폼 개발에 적합합니다. 2..NET은 클래스 라이브러리 및 런타임 환경을 제공하며 다국어를 지원합니다. 두 사람은 현대적인 응용 프로그램을 구축하기 위해 함께 작동합니다.

C# .NET은 C# 언어 및 .NET 프레임 워크의 장점을 결합한 강력한 개발 플랫폼입니다. 1) 엔터프라이즈 애플리케이션, 웹 개발, 게임 개발 및 모바일 애플리케이션 개발에 널리 사용됩니다. 2) C# 코드는 중간 언어로 컴파일되며 .NET 런타임 환경에서 실행되며 쓰레기 수집, 유형 안전 및 LINQ 쿼리를 지원합니다. 3) 사용의 예로는 기본 콘솔 출력 및 고급 LINQ 쿼리가 포함됩니다. 4) 빈 참조 및 유형 변환 오류와 같은 일반적인 오류는 디버거 및 로깅을 통해 해결할 수 있습니다. 5) 성능 최적화 제안에는 비동기 프로그래밍 및 LINQ 쿼리 최적화가 포함됩니다. 6) 경쟁에도 불구하고 C#.net은 지속적인 혁신을 통해 중요한 위치를 유지합니다.

C#.NET의 미래 트렌드는 주로 클라우드 컴퓨팅, 마이크로 서비스, AI 및 기계 학습 통합, 크로스 플랫폼 개발의 세 가지 측면에 중점을 둡니다. 1) 클라우드 컴퓨팅 및 마이크로 서비스 : C#.net은 Azure 플랫폼을 통해 클라우드 환경 성능을 최적화하고 효율적인 마이크로 서비스 아키텍처의 구성을 지원합니다. 2) AI 및 기계 학습의 통합 : ML.NET 라이브러리의 도움으로 C# 개발자는 기계 학습 모델을 응용 프로그램에 포함시켜 지능형 애플리케이션의 개발을 촉진 할 수 있습니다. 3) 크로스 플랫폼 개발 : .NETCORE 및 .NET5를 통해 C# 응용 프로그램은 Windows, Linux 및 MacOS에서 실행되어 배포 범위를 확장 할 수 있습니다.

C#.NET 개발의 최신 개발 및 모범 사례에는 다음이 포함됩니다. 1. 비동기 프로그래밍은 응용 프로그램 응답 성을 향상시키고 Async 및 Await 키워드를 사용하여 비 차단 코드를 단순화합니다. 2. LINQ는 지연된 실행 및 표현 트리를 통해 데이터를 효율적으로 조작하는 강력한 쿼리 기능을 제공합니다. 3. 성능 최적화 제안에는 비동기 프로그래밍 사용, LINQ 쿼리 최적화, 합리적으로 메모리 관리, 코드 가독성 및 유지 보수 개선 및 단위 테스트 작성이 포함됩니다.

.NET을 사용하여 응용 프로그램을 구축하는 방법? .NET을 사용하여 응용 프로그램 빌드 응용 프로그램은 다음 단계를 통해 달성 할 수 있습니다. 1) C# 언어 및 크로스 플랫폼 개발 지원을 포함한 .NET의 기본 사항을 이해합니다. 2) .NET 생태계의 구성 요소 및 작동 원리와 같은 핵심 개념을 배우십시오. 3) 간단한 콘솔 애플리케이션에서 복잡한 WebApis 및 데이터베이스 운영에 이르기까지 기본 및 고급 사용을 마스터합니다. 4) 구성 및 데이터베이스 연결 문제와 같은 일반적인 오류 및 디버깅 기술에 익숙해야합니다. 5) 응용 프로그램 성능 최적화 및 비동기 프로그래밍 및 캐싱과 같은 모범 사례.

C#은 엔터프라이즈 레벨 애플리케이션, 게임 개발, 모바일 응용 프로그램 및 웹 개발에서 널리 사용됩니다. 1) 엔터프라이즈 레벨 애플리케이션에서 C#은 종종 asp.netcore가 webapi를 개발하는 데 사용됩니다. 2) 게임 개발에서 C#은 Unity 엔진과 결합되어 역할 제어 및 기타 기능을 실현합니다. 3) C#은 코드 유연성 및 응용 프로그램 성능을 향상시키기 위해 다형성 및 비동기 프로그래밍을 지원합니다.

C# 및 .NET은 웹, 데스크탑 및 모바일 개발에 적합합니다. 1) 웹 개발에서 ASP.NETCORE는 크로스 플랫폼 개발을 지원합니다. 2) 데스크탑 개발은 WPF 및 Winforms를 사용하여 다양한 요구에 적합합니다. 3) 모바일 개발은 Xamarin을 통한 크로스 플랫폼 응용 프로그램을 실현합니다.

C#.NET 생태계는 개발자가 응용 프로그램을 효율적으로 구축 할 수 있도록 풍부한 프레임 워크 및 라이브러리를 제공합니다. 1.asp.netCore는 고성능 웹 애플리케이션을 구축하는 데 사용되며 2.entityFrameworkCore는 데이터베이스 작업에 사용됩니다. 이러한 도구의 사용 및 모범 사례를 이해함으로써 개발자는 응용 프로그램의 품질과 성능을 향상시킬 수 있습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

WebStorm Mac 버전
유용한 JavaScript 개발 도구

Dreamweaver Mac版
시각적 웹 개발 도구

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경
