ホームページ >バックエンド開発 >PHPチュートリアル >PHPとTesseractを使ってOCR画像テキスト認識機能を実装する

PHPとTesseractを使ってOCR画像テキスト認識機能を実装する

WBOY
WBOYオリジナル
2023-06-25 10:01:363146ブラウズ

人工知能とコンピューター ビジョン テクノロジーの急速な発展に伴い、光学式文字認識システムである OCR (光学式文字認識) はますます成熟しており、多くのアプリケーション シナリオで必要な機能となっています。 OCR システムは画像内のテキストを認識できるため、画像内の情報をデジタル処理してインテリジェントに分析できます。この記事では、PHPとTesseractを使ってOCR画像テキスト認識機能を実装する方法を紹介します。

1. Tesseract の概要

Tesseract は、HP Labs によって開発され、オープン ソース コミュニティに貢献したオープン ソース OCR エンジンです。多言語に対応しており、認識性と精度が高いです。 Tesseract の最新バージョンは 4.1.1 です。

2. 環境を構成して Tesseract をインストールする

  1. PHP をインストールする

まず、PHP をローカルまたはサーバーにインストールする必要があります。 XAMPP または WAMP 環境がこのマシンに既にインストールされている場合は、xampp または wamp に付属の PHP を直接使用できますが、そうでない場合は手動でインストールする必要があります。

  1. Tesseract のインストール

公式 Web サイト https://github.com/tesseract-ocr/tesseract から Tesseract をダウンロードし、使用するオペレーティング システムに応じてダウンロードを選択します。使っている。ダウンロードが完了したらインストールします。中国語を使用する必要がある場合は、対応する言語パックもダウンロードする必要があります。

コマンド ライン ウィンドウで tesseract --version を実行して、Tesseract が正常にインストールされているかどうかを確認します。

3. PHP と Tesseract を使用して OCR 画像テキスト認識機能を実装します

  1. PHP と Tesseract をインストールしてインストールします

まず、以下をインストールする必要がありますPHPを起動し、Tesseractをインストールします。

2. 画像パスを渡してコマンド認識を実行します

exec 関数 (またはshell_exec() または system()) を使用してコマンドを実行し、画像内のテキストを認識します。渡されるパラメータは Tesseract に必要なコマンド パラメータです。「chi_sim」は認識される言語であり、必要に応じて変更できます。

$command = "tesseract ". $image_path ." " .$output_path." -l chi_sim";
//コマンドを実行
exec($command);

  1. 認識結果の取得

file_get_contents() 関数を使用して、最終的な認識結果を取得して返します。

if (file_exists($output_path.'.txt')) {

    $content = file_get_contents($output_path.'.txt');
    //返回识别结果
    return $content;

}

4. Test

次は簡単な例です。 OCR画像テキスト認識機能が正しく動作するかテストします。

(1) まず、画像を準備する必要があります。ここでは中国語のテキストを含む画像を使用します。

(2) 認識する画像のパスと出力結果のパスを関数に渡す コードは次のとおりです:

function ocr($image_path, $output_path) {

$command = "tesseract ". $image_path ." " .$output_path." -l chi_sim"; 
//执行命令
exec($command);

if (file_exists($output_path.'.txt')) {
    $content = file_get_contents($output_path.'.txt');
    //返回识别结果
    return $content;
}

}

(3) 関数を呼び出して結果を出力するコードは次のとおりです:

$image_path = './test.jpg';
$output_path = './test';
$result = ocr($image_path,$output_path);

echo $result;

(4) プログラムを実行します。すべてが正常であれば、次の結果が出力されます:

「これは中国語のテキストを含むテスト画像です。」

5. 概要

この記事の導入部を通じて、読者はその方法を学ぶことができます。 PHP と Tesseract を使用して OCR 画像テキスト認識機能を実装します。画像テキスト認識を必要とする一部のアプリケーション シナリオでは、高速かつ正確なテキスト抽出が実現され、作業効率と精度が向上します。もちろん、さまざまなアプリケーション シナリオで、本当により良い結果を達成するには、実際のニーズに応じてコードを変更および最適化する必要があります。

以上がPHPとTesseractを使ってOCR画像テキスト認識機能を実装するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。