ホームページ >バックエンド開発 >C++ >C# または VB.NET で iTextSharp を使用して PDF コンテンツを効率的に抽出する方法

C# または VB.NET で iTextSharp を使用して PDF コンテンツを効率的に抽出する方法

Barbara Streisand
Barbara Streisandオリジナル
2025-01-06 07:46:40820ブラウズ

How to Extract PDF Content Efficiently using iTextSharp in C# or VB.NET?

iTextSharp を使用した PDF コンテンツの抽出

質問:

iTextSharp を使用して PDF ドキュメントのコンテンツを効果的に取得する方法VB.NET またはC#?

答え:

iTextSharp は、PdfReader クラスを通じて PDF コンテンツを読み取るための信頼できるメカニズムを提供します。 PDF ドキュメントからテキストと画像の両方を抽出する包括的な C# ソリューションを次に示します。

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

namespace PdfContentReader
{
    public static class Program
    {
        public static string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

        public static void Main(string[] args)
        {
            string fileName = @"path\to\file.pdf";
            string extractedText = ReadPdfFile(fileName);

            Console.WriteLine(extractedText);
        }
    }
}

この実装では:

  • ReadPdfFile メソッドは、ファイル名を引数として受け取り、 PDF ドキュメントの各ページからテキスト コンテンツを抽出します。
  • SimpleTextExtractionStrategy を使用して PDF からプレーン テキストを抽出します。 document.
  • 抽出されたテキストを UTF-8 エンコードに変換することで、潜在的なエンコードの問題に対処します。

このソリューションは、PDF ドキュメントからテキスト コンテンツを効率的に抽出し、プレーン テキストとテキストの両方を処理します。画像を効果的に埋め込みます。

以上がC# または VB.NET で iTextSharp を使用して PDF コンテンツを効率的に抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。