ホームページ  >  記事  >  Java  >  Java を使用した Tesseract OCR とその例

Java を使用した Tesseract OCR とその例

PHPz
PHPz転載
2023-09-19 23:33:031010ブラウズ

###############導入###

光学式文字認識 (OCR) は、印刷されたテキストをデジタル化し、編集、検索、保存しやすいようにコンパクトにする上で重要な役割を果たします。最も強力な OCR ツールの 1 つは Tesseract OCR です。この記事では、Tesseract OCR で Java を使用する方法を検討し、理解を深めるために詳細な例を示します。 使用Java的Tesseract OCR及其示例

Tesseract OCR とは何ですか?

Tesseract OCR は、Google が提供するオープンソース OCR エンジンで、100 を超える言語を直接認識できます。その精度と適応性は広く評価されており、さまざまなアプリケーション開発者の間で人気の選択肢となっています。

Tesseract OCR と Java の統合

Tesseract OCR を Java と統合するには、Tesseract API for Java として一般に知られる Tess4J を使用する必要があります。 Tess4J は、Tesseract OCR API 用の Java JNA ラッパーを提供し、Tesseract エンジンと Java アプリケーションの間のギャップを橋渡しします。

ステップ 1: 環境をセットアップする

まず、Tesseract OCR と Tess4J をインストールする必要があります。 Tesseract は、それぞれのパッケージ マネージャーを使用して Windows、Linux、MacOS にインストールできます。 Tess4J を Java プロジェクトに含めるには、Maven 依存関係として追加できます -

リーリー

ステップ 2: 画像に対して OCR 処理を実行します

以下は、画像ファイルに対して OCR を実行するための簡単な Java コード スニペットです -

リーリー

この例では、Tesseract オブジェクトをインスタンス化し、言語データ ファイルが含まれる te​​ssdata ディレクトリへのパスを設定します。次に、画像ファイルに対して doOCR() を呼び出します。これにより、認識されたテキストを含む文字列が返されます。

ステップ 3: 複数の言語の処理

Tesseract OCR は 100 以上の言語をサポートしています。別の言語を使用して OCR を実行するには、Tesseract インスタンスで言語を設定するだけです -

リーリー

次に、通常どおり doOCR() 関数を呼び出します-

リーリー

画像はフランスのデータを使用して OCR されます。

###結論は###

Tesseract OCR を Java と組み合わせると、アプリケーションに OCR 機能を実装する必要がある開発者に強力なツールセットが提供されます。 Tesseract の柔軟性、正確さ、幅広い言語サポートにより、幅広い OCR タスクに最適です。

以上がJava を使用した Tesseract OCR とその例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はtutorialspoint.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。