>백엔드 개발 >C++ >C# 또는 VB.NET에서 iTextSharp를 사용하여 PDF 컨텐츠를 효율적으로 추출하는 방법은 무엇입니까?

C# 또는 VB.NET에서 iTextSharp를 사용하여 PDF 컨텐츠를 효율적으로 추출하는 방법은 무엇입니까?

Barbara Streisand
Barbara Streisand원래의
2025-01-06 07:46:40865검색

How to Extract PDF Content Efficiently using iTextSharp in C# or VB.NET?

iTextSharp를 사용하여 PDF 콘텐츠 추출

질문:

iTextSharp를 사용하여 PDF 문서의 콘텐츠를 효과적으로 검색하는 방법 VB.NET 또는 C#?

답변:

iTextSharp는 PdfReader 클래스를 통해 PDF 콘텐츠를 읽을 수 있는 안정적인 메커니즘을 제공합니다. 다음은 PDF 문서에서 텍스트와 이미지를 모두 추출하는 포괄적인 C# 솔루션입니다.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

namespace PdfContentReader
{
    public static class Program
    {
        public static string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

        public static void Main(string[] args)
        {
            string fileName = @"path\to\file.pdf";
            string extractedText = ReadPdfFile(fileName);

            Console.WriteLine(extractedText);
        }
    }
}

이 구현에서:

  • ReadPdfFile 메서드는 파일 이름을 인수로 사용하고 PDF 문서의 각 페이지에서 텍스트 콘텐츠를 추출합니다.
  • SimpleTextExtractionStrategy를 사용하여 PDF에서 일반 텍스트를 추출합니다. document.
  • 추출된 텍스트를 UTF-8 인코딩으로 변환하여 잠재적인 인코딩 문제를 처리합니다.

이 솔루션은 PDF 문서에서 텍스트 콘텐츠를 효율적으로 추출하여 일반 텍스트와 텍스트를 모두 처리합니다. 이미지를 효과적으로 삽입하세요.

위 내용은 C# 또는 VB.NET에서 iTextSharp를 사용하여 PDF 컨텐츠를 효율적으로 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.