OCR (Optical Character Recognition、光学式文字認識) は、画像内のテキストをコンピューター可読テキストに変換する技術です。画像内のテキストを編集可能なテキストに変換するのに役立ちます。この記事では、PHPとOCRエンジンTesseractを使ってOCR処理を行う方法を紹介します。
まず、Tesseract OCR エンジンをインストールする必要があります。 Tesseract は、Google が開発したオープンソースの OCR エンジンです。複数のテキスト言語を認識し、さまざまなプラットフォームで動作します。
Linux システムに Tesseract をインストールする場合は、次のコマンドを使用できます。
sudo apt-get install tesseract-ocr
Windows システムでは、Tesseract の公式 Web サイト (https://github.com/) からインストールできます。 tesseract-ocr/tesseract ) インストーラーをダウンロードしてインストールします。
次に、Tesseract を使用するために PHP 拡張機能をインストールする必要があります。 PHP には、PHP で Tesseract エンジンを使用できるようにする「tesseract」と呼ばれる OCR 拡張機能があります。
Linux システムでは、次のコマンドを使用してインストールできます。
sudo apt-get install php-tesseract
Windows システムでは、PECL (http://pecl.php.net/package/) から拡張機能をダウンロードできます。 tesseract) を選択してインストールします。次の行を php.ini ファイルに追加して、拡張機能を有効にします。
extension=tesseract.so
次に、PHP と Tesseract を使用してテキストを識別します。画像テキスト。
まず、認識する必要があるテキストを含む画像を準備する必要があります。 「example.png」という名前の画像があるとします。次のコードを使用してその中のテキストを識別します。
<?php function recognize_text($filename) { $tesseract = new TesseractOCR($filename); $tesseract->setLanguage('eng'); $tesseract->setTempDir('/tmp'); return $tesseract->recognize(); } $filename = 'example.png'; $text = recognize_text($filename); echo $text; ?>
上記のコードでは、TesseractOCR クラスを使用して画像内のテキストを識別しました。 。このクラスのコンストラクターには、OCR 処理が必要な画像のファイル名であるファイル名パラメーターが必要です。
setLanguage() メソッドは、使用する認識言語を指定します。ここでは英語を指定します。 setTempDir() メソッドは、認識プロセス中に一時ファイルを保存するために使用されるディレクトリを設定します。最後に、recognition() メソッドを呼び出して OCR 処理を実行し、結果を返すか出力します。
この記事では、PHP と Tesseract を使用して OCR 処理を行う方法を学びました。まず Tesseract OCR エンジンと tesseract 拡張機能をインストールし、次に PHP コードを使用して画像内のテキストを認識しました。 OCR テクノロジーを使用すると、画像から編集可能なテキストを抽出でき、文書のスキャンやデジタル アーカイブなどのさまざまなシナリオに適用できます。
以上がPHPとTesseractでOCR処理を行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。