Rumah >pembangunan bahagian belakang >C++ >Bagaimana untuk Mengekstrak Kandungan PDF dengan Cekap menggunakan iTextSharp dalam C# atau VB.NET?

Bagaimana untuk Mengekstrak Kandungan PDF dengan Cekap menggunakan iTextSharp dalam C# atau VB.NET?

Barbara Streisand
Barbara Streisandasal
2025-01-06 07:46:40906semak imbas

How to Extract PDF Content Efficiently using iTextSharp in C# or VB.NET?

Mengekstrak Kandungan PDF menggunakan iTextSharp

Soalan:

Cara untuk mendapatkan semula kandungan dokumen PDF menggunakan iTextSharp dalam sama ada VB.NET atau C#?

Jawapan:

iTextSharp menyediakan mekanisme yang boleh dipercayai untuk membaca kandungan PDF melalui kelas PdfReadernya. Berikut ialah penyelesaian C# yang komprehensif untuk mengekstrak kedua-dua teks dan imej daripada dokumen PDF:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

namespace PdfContentReader
{
    public static class Program
    {
        public static string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

        public static void Main(string[] args)
        {
            string fileName = @"path\to\file.pdf";
            string extractedText = ReadPdfFile(fileName);

            Console.WriteLine(extractedText);
        }
    }
}

Dalam pelaksanaan ini:

  • Kaedah ReadPdfFile mengambil nama fail sebagai hujah dan mengekstrak kandungan teks daripada setiap halaman dokumen PDF.
  • Kami menggunakan SimpleTextExtractionStrategy untuk mengekstrak teks biasa daripada PDF dokumen.
  • Kami menangani isu pengekodan yang berpotensi dengan menukar teks yang diekstrak kepada pengekodan UTF-8.

Penyelesaian ini dengan cekap mengekstrak kandungan teks daripada dokumen PDF, mengendalikan kedua-dua teks biasa dan imej terbenam dengan berkesan.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Kandungan PDF dengan Cekap menggunakan iTextSharp dalam C# atau VB.NET?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn