C#はPDFをテキストに変換する機能を実装します-C#.Net チュートリアル-php.cn

ホームページ

バックエンド開発

C#.Net チュートリアル

C#はPDFをテキストに変換する機能を実装します

伊谢尔伦

Nov 24, 2016 pm 01:17 PM

更新

2014 年 2 月 27 日: この記事は当初、PDFBox を使用して PDF ファイルを解析することについてのみ説明していました。これは、IFilter と iTextSharp を使用するためのルーチンを含むように拡張されました。

この記事と対応する Visual Studio プロジェクトは、PDFBox の最新バージョン (1.8.4) に更新されました。すべての依存関係を含む完全なプロジェクトは、http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ からダウンロードできます (依存関係の削除は少し注意が必要です)。

PDF ファイルを解析する方法

.NET で PDF ファイルからテキストを抽出する主な方法は次のとおりです。

Microsoft の IFilter インターフェイスと Adobe の IFilter 実装。

残念ながら、これらの PDF 解析ソリューションはどれも完璧ではありません。これらの方法については以下で説明します。

Adobe PDF IFilter

IFilter インターフェイスを使用して PDF ファイルを解析するには、次のものが必要です:

Windows 2000 以降

Adobe Acrobat または Reader 7.0.5+ (またはスタンドアロン Adobe PDF IFilter [adobe.com])

IFilter COM カプセル化クラス [dotlucene.net]

サンプルコード:

using IFilter;
 
// ...
 
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}

短所:

IFilter インターフェイスを処理するために信頼性の低い COM 相互運用機能を使用します (IFilter COM と Adobe PDF IFilter を組み合わせるのは特に面倒です)。

ターゲットシステムに Adobe IFilter を個別にインストールする必要があります。インデックス可能なソリューションを他の人に公開する必要がある場合、それは面倒です。

iTextSharp

iTextSharp (http://sourceforge.net/projects/itextsharp/) は、Java PDF 操作ライブラリ iText (http://itextpdf.com/) .NET 出力です。主に PDF を読み取ることよりも編集することに重点を置いていますが、確かに PDF からのテキストの抽出もサポートしています (少しやりすぎですが)。

ルーチン:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
 
// ...
  
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();
 
    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }
 
    return text.ToString();
  }
}

クレジット: 会員番号 10364982

短所:

ライセンスが必要（AGPLライセンスが気に入らない場合）

PDFBox

PDFBoxは、別のJava PDFクラスライブラリです。オリジナルの Java Lucene と一緒に使用することもできます (LucenePDFDocument を参照)。

幸いなことに、PDFBox には IKVM.NET を使用して開発された .NET バージョンがあります (PDFBox ダウンロードページにアクセスしてください)。

.NET で PDFBox を使用するには、引用符で囲む必要があります:

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8.4.dll

そして、次のファイルを bin フォルダーにコピーします。

commons-logging.dll

fontbox-1.8.4.dll

IKVM.OpenJDK.Util.dll

IKVM.Runtime.dll

PDFBoxを使用してPDFを解析するのは非常に簡単です:

using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
 
// ...
 
private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}

コンパイルされたサイズ合計でほぼ 18MB になります:

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons- logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

速度はOK: 米国著作権法 PDF (5.1 MB) ファイルの解析には 13 秒かかりました。

bobrien100さん、改善提案ありがとうございます。

デメリット:

IKVM.NET依存(18MB)

速度(特にIKVM.NETの起動時間)

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

C＃対.NET：重要な違いと類似点を明確にしますMay 01, 2025 am 12:12 AM

C＃はプログラミング言語であり、.NETはソフトウェアフレームワークです。 1.C＃はMicrosoftによって開発されており、マルチプラットフォーム開発に適しています。 2..NETは、クラスライブラリとランタイム環境を提供し、多言語をサポートします。 2つは協力して最新のアプリケーションを構築します。

誇大広告を超えて：c＃.netの現在の役割を評価するApr 30, 2025 am 12:06 AM

C＃.NETは、C＃言語と.NETフレームワークの利点を組み合わせた強力な開発プラットフォームです。 1）エンタープライズアプリケーション、Web開発、ゲーム開発、モバイルアプリケーション開発で広く使用されています。 2）C＃コードは中間言語にコンパイルされ、.NETランタイム環境によって実行され、ガベージコレクション、タイプの安全性、LINQクエリをサポートします。 3）使用の例には、基本的なコンソール出力と高度なLINQクエリが含まれます。 4）空の参照やタイプ変換エラーなどの一般的なエラーは、デバッガーとロギングを通じて解決できます。 5）パフォーマンスの最適化の提案には、非同期プログラミングとLINQクエリの最適化が含まれます。 6）競争にもかかわらず、C＃.NETは継続的なイノベーションを通じて重要な地位を維持しています。

C＃.NETの未来：トレンドと機会Apr 29, 2025 am 12:02 AM

C＃.NETの将来の傾向は、主にクラウドコンピューティング、マイクロサービス、AIおよび機械学習統合、およびクロスプラットフォーム開発の3つの側面に焦点を当てています。 1）クラウドコンピューティングとマイクロサービス：C＃.NETは、Azureプラットフォームを介してクラウド環境のパフォーマンスを最適化し、効率的なマイクロサービスアーキテクチャの構築をサポートします。 2）AIと機械学習の統合：ML.NETライブラリの助けを借りて、C＃開発者はアプリケーションに機械学習モデルを埋め込み、インテリジェントアプリケーションの開発を促進できます。 3）クロスプラットフォーム開発：.NetCoreおよび.Net5を介して、C＃アプリケーションはWindows、Linux、およびMacOで実行され、展開範囲が拡大します。

C＃.NET開発今日：トレンドとベストプラクティスApr 28, 2025 am 12:25 AM

C＃.NET開発における最新の開発とベストプラクティスには、次のものが含まれます。1。非同期プログラミングは、アプリケーションの応答性を向上させ、Asyncを使用して非ブロッキングコードを簡素化し、キーワードを待ちます。 2。LINQは強力なクエリ関数を提供し、遅延した実行および式ツリーを介してデータを効率的に操作します。 3.パフォーマンスの最適化の提案には、非同期プログラミングの使用、LINQクエリの最適化、メモリの合理的な管理、コードの読みやすさとメンテナンスの改善、単体テストの書き込みが含まれます。

C＃.NET：.NETエコシステムを使用したアプリケーションの構築Apr 27, 2025 am 12:12 AM

.NETを使用してアプリケーションを構築する方法は？ .NETを使用してアプリケーションを構築することは、次の手順を通じて達成できます。1）C＃言語やクロスプラットフォーム開発サポートを含む.NETの基本を理解します。 2）コンポーネントや.NETエコシステムの作業原則などのコア概念を学習します。 3）単純なコンソールアプリケーションから複雑なWebAPISおよびデータベース操作まで、基本的および高度な使用をマスターします。 4）構成やデータベース接続の問題など、一般的なエラーとデバッグ手法に精通している。 5）アプリケーションのパフォーマンスの最適化と非同期プログラミングやキャッシュなどのベストプラクティス。

汎用性のある.NET言語としてのC＃：アプリケーションと例Apr 26, 2025 am 12:26 AM

C＃は、エンタープライズレベルのアプリケーション、ゲーム開発、モバイルアプリケーション、Web開発で広く使用されています。 1）エンタープライズレベルのアプリケーションでは、C＃がasp.netcoreにWebAPIを開発するためによく使用されます。 2）ゲーム開発では、C＃がUnityエンジンと組み合わされて、ロールコントロールやその他の機能を実現します。 3）C＃は、コードの柔軟性とアプリケーションのパフォーマンスを改善するために、多型と非同期プログラミングをサポートします。

Web、デスクトップ、モバイル開発用のC＃.NETApr 25, 2025 am 12:01 AM

C＃と.NETは、Web、デスクトップ、モバイル開発に適しています。 1）Web開発では、ASP.Netcoreがクロスプラットフォーム開発をサポートしています。 2）デスクトップ開発では、さまざまなニーズに適したWPFとWINFORMSを使用します。 3）モバイル開発は、Xamarinを介したクロスプラットフォームアプリケーションを実現します。

C＃.NETエコシステム：フレームワーク、ライブラリ、およびツールApr 24, 2025 am 12:02 AM

C＃.NETエコシステムは、開発者がアプリケーションを効率的に構築できるようにするための豊富なフレームワークとライブラリを提供します。 1.ASP.NETCOREは、高性能Webアプリケーションの構築に使用されます。2.EntityFrameWorkCoreは、データベース操作に使用されます。これらのツールの使用とベストプラクティスを理解することにより、開発者はアプリケーションの品質とパフォーマンスを向上させることができます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

SublimeText3 中国語版

中国語版、とても使いやすい

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。