질문:
iTextSharp를 사용하여 PDF 문서의 콘텐츠를 효과적으로 검색하는 방법 VB.NET 또는 C#?
답변:
iTextSharp는 PdfReader 클래스를 통해 PDF 콘텐츠를 읽을 수 있는 안정적인 메커니즘을 제공합니다. 다음은 PDF 문서에서 텍스트와 이미지를 모두 추출하는 포괄적인 C# 솔루션입니다.
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.IO; using System.Text; namespace PdfContentReader { public static class Program { public static string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); text.Append(currentText); } pdfReader.Close(); } return text.ToString(); } public static void Main(string[] args) { string fileName = @"path\to\file.pdf"; string extractedText = ReadPdfFile(fileName); Console.WriteLine(extractedText); } } }
이 구현에서:
이 솔루션은 PDF 문서에서 텍스트 콘텐츠를 효율적으로 추출하여 일반 텍스트와 텍스트를 모두 처리합니다. 이미지를 효과적으로 삽입하세요.
위 내용은 C# 또는 VB.NET에서 iTextSharp를 사용하여 PDF 컨텐츠를 효율적으로 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!