찾다
백엔드 개발C#.Net 튜토리얼C#은 PDF를 텍스트로 변환하는 기능을 구현합니다.

업데이트

2014년 2월 27일: 이 기사는 원래 PDFBox를 사용하여 PDF 파일을 구문 분석하는 것에 대해서만 설명했습니다. 이제 IFilter 및 iTextSharp를 사용하기 위한 루틴을 포함하도록 확장되었습니다.

이 글과 해당 Visual Studio 프로젝트가 최신 PDFBox 버전(1.8.4)으로 업데이트되었습니다. 모든 종속성이 포함된 전체 프로젝트는 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/에서 다운로드할 수 있습니다(종속성을 제거하는 것은 약간 까다롭습니다).

PDF 파일을 구문 분석하는 방법

.NET의 PDF 파일에서 텍스트를 추출하는 주요 방법은 다음과 같습니다.

Microsoft의 IFilter 인터페이스 및 Adobe의 IFilter 구현. >iTextSharp

PDFBox.

불행하게도 이러한 PDF 구문 분석 솔루션 중 완벽한 것은 없습니다. 아래에서는 이러한 방법에 대해 설명합니다.

Adobe PDF IFilter

IFilter 인터페이스를 사용하여 PDF 파일을 구문 분석하려면 다음이 필요합니다.

Windows 2000 이상 버전

Adobe Acrobat 또는 Reader 7.0 이상(또는 별도의 Adobe PDF IFilter [adobe.com])

IFilter COM 래퍼 클래스 [dotlucene.net]

샘플 코드:

단점:
using IFilter;
 
// ...
 
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}

IFilter 인터페이스를 처리하기 위해 신뢰할 수 없는 COM 상호 운용성을 사용합니다(IFilter COM과 Adobe PDF IFilter를 결합하는 것은 특히 문제가 됩니다).

대상 시스템에는 Adobe IFilter를 별도로 설치해야 합니다. 색인 생성 가능한 솔루션을 다른 사람에게 게시해야 하는 경우에는 고통스럽습니다.

iTextSharp

iTextSharp(http://sourceforge.net/projects/itextsharp/)는 Java PDF 작업 라이브러리 iText(http://itextpdf.com/) .NET 출력입니다. 주로 PDF를 읽는 것보다 편집하는 데 중점을 두고 있지만 확실히 PDF에서 텍스트 추출도 지원합니다(약간 과잉이긴 하지만).

루틴:

크레딧: 회원번호 10364982
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
 
// ...
  
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();
 
    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }
 
    return text.ToString();
  }
}

단점:

라이센스 필요(AGPL 라이센스가 마음에 들지 않는 경우) )

PDFBox

PDFBox는 또 다른 Java PDF 클래스 라이브러리입니다. 또한 원본 Java Lucene과 함께 사용할 수도 있습니다(LucenePDFDocument 참조).

다행히 PDFBox에는 IKVM.NET을 사용하여 개발된 .NET 버전이 있습니다(PDFBox 다운로드 페이지를 방문하세요).

.NET에서 PDFBox를 사용하려면

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8을 인용해야 합니다. 4.dll

 그리고 다음 파일을 bin 폴더에 복사합니다:

commons-logging.dll

fontbox-1.8.4.dll

IKVM .OpenJDK.Util.dll

IKVM.Runtime.dll

PDFBox를 사용하여 PDF를 구문 분석하는 것은 매우 간단합니다.

총 컴파일된 크기는 거의 18MB입니다.
using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
 
// ...
 
private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}

IKVM.OpenJDK.Core.dll(4MB)

IKVM.OpenJDK.SwingAWT.dll(6MB)

pdfbox-1.8.4.dll(4MB)

commons-logging.dll(82kB)

fontbox-1.8.4.dll(180kB)

IKVM.OpenJDK.Util.dll(2MB)

IKVM.Runtime.dll(1MB)

속도는 괜찮습니다. 미국 저작권법 PDF(5.1MB) 파일을 구문 분석하는 데 13초가 걸렸습니다.

개선 제안을 해주신 bobrien100님께 감사드립니다.

단점:

IKVM.NET 종속성(18MB)

속도 ​​(특히 IKVM.NET 시작 시간)

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
如何使用C#编写时间序列预测算法如何使用C#编写时间序列预测算法Sep 19, 2023 pm 02:33 PM

如何使用C#编写时间序列预测算法时间序列预测是一种通过分析过去的数据来预测未来数据趋势的方法。它在很多领域,如金融、销售和天气预报中有广泛的应用。在本文中,我们将介绍如何使用C#编写时间序列预测算法,并附上具体的代码示例。数据准备在进行时间序列预测之前,首先需要准备好数据。一般来说,时间序列数据应该具有足够的长度,并且是按照时间顺序排列的。你可以从数据库或者

如何使用Redis和C#开发分布式事务功能如何使用Redis和C#开发分布式事务功能Sep 21, 2023 pm 02:55 PM

如何使用Redis和C#开发分布式事务功能引言分布式系统的开发中,事务处理是一项非常重要的功能。事务处理能够保证在分布式系统中的一系列操作要么全部成功,要么全部回滚。Redis是一种高性能的键值存储数据库,而C#是一种广泛应用于开发分布式系统的编程语言。本文将介绍如何使用Redis和C#来实现分布式事务功能,并提供具体代码示例。I.Redis事务Redis

如何实现C#中的人脸识别算法如何实现C#中的人脸识别算法Sep 19, 2023 am 08:57 AM

如何实现C#中的人脸识别算法人脸识别算法是计算机视觉领域中的一个重要研究方向,它可以用于识别和验证人脸,广泛应用于安全监控、人脸支付、人脸解锁等领域。在本文中,我们将介绍如何使用C#来实现人脸识别算法,并提供具体的代码示例。实现人脸识别算法的第一步是获取图像数据。在C#中,我们可以使用EmguCV库(OpenCV的C#封装)来处理图像。首先,我们需要在项目

C#开发中如何处理跨域请求和安全性问题C#开发中如何处理跨域请求和安全性问题Oct 08, 2023 pm 09:21 PM

C#开发中如何处理跨域请求和安全性问题在现代的网络应用开发中,跨域请求和安全性问题是开发人员经常面临的挑战。为了提供更好的用户体验和功能,应用程序经常需要与其他域或服务器进行交互。然而,浏览器的同源策略导致了这些跨域请求被阻止,因此需要采取一些措施来处理跨域请求。同时,为了保证数据的安全性,开发人员还需要考虑一些安全性问题。本文将探讨C#开发中如何处理跨域请

Redis在C#开发中的应用:如何实现高效的缓存更新Redis在C#开发中的应用:如何实现高效的缓存更新Jul 30, 2023 am 09:46 AM

Redis在C#开发中的应用:如何实现高效的缓存更新引言:在Web开发中,缓存是提高系统性能的常用手段之一。而Redis作为一款高性能的Key-Value存储系统,能够提供快速的缓存操作,为我们的应用带来了不少便利。本文将介绍如何在C#开发中使用Redis,实现高效的缓存更新。Redis的安装与配置在开始之前,我们需要先安装Redis并进行相应的配置。你可以

如何使用C#编写动态规划算法如何使用C#编写动态规划算法Sep 20, 2023 pm 04:03 PM

如何使用C#编写动态规划算法摘要:动态规划是求解最优化问题的一种常用算法,适用于多种场景。本文将介绍如何使用C#编写动态规划算法,并提供具体的代码示例。一、什么是动态规划算法动态规划(DynamicProgramming,简称DP)是一种用来求解具有重叠子问题和最优子结构性质的问题的算法思想。动态规划将问题分解成若干个子问题来求解,通过记录每个子问题的解,

如何实现C#中的遗传算法如何实现C#中的遗传算法Sep 19, 2023 pm 01:07 PM

如何在C#中实现遗传算法引言:遗传算法是一种模拟自然选择和基因遗传机制的优化算法,其主要思想是通过模拟生物进化的过程来搜索最优解。在计算机科学领域,遗传算法被广泛应用于优化问题的解决,例如机器学习、参数优化、组合优化等。本文将介绍如何在C#中实现遗传算法,并提供具体的代码示例。一、遗传算法的基本原理遗传算法通过使用编码表示解空间中的候选解,并利用选择、交叉和

如何实现C#中的图像压缩算法如何实现C#中的图像压缩算法Sep 19, 2023 pm 02:12 PM

如何实现C#中的图像压缩算法摘要:图像压缩是图像处理领域中的一个重要研究方向,本文将介绍在C#中实现图像压缩的算法,并给出相应的代码示例。引言:随着数字图像的广泛应用,图像压缩成为了图像处理中的重要环节。压缩能够减小存储空间和传输带宽,并能提高图像处理的效率。在C#语言中,我们可以通过使用各种图像压缩算法来实现对图像的压缩。本文将介绍两种常见的图像压缩算法:

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.