Maison  >  Article  >  développement back-end  >  Comment effectuer un traitement OCR avec PHP et Tesseract

Comment effectuer un traitement OCR avec PHP et Tesseract

王林
王林original
2023-06-21 13:36:101972parcourir

OCR (Optical Character Recognition, Optical Character Recognition) est une technologie qui convertit le texte des images en texte lisible par ordinateur. Il vous aide à convertir le texte des images en texte modifiable. Dans cet article, nous présenterons comment utiliser PHP et le moteur OCR Tesseract pour le traitement OCR.

  1. Installer Tesseract

Tout d'abord, nous devons installer le moteur Tesseract OCR. Tesseract est un moteur OCR open source développé par Google. Il reconnaît plusieurs langues de texte et fonctionne sur de nombreuses plateformes différentes.

Lors de l'installation de Tesseract sur un système Linux, vous pouvez utiliser la commande suivante :

sudo apt-get install tesseract-ocr

Sur un système Windows, vous pouvez télécharger le programme d'installation depuis le site officiel de Tesseract (https://github.com/tesseract-ocr/tesseract) et installez-le.

  1. Installer l'extension PHP

Ensuite, nous devons installer l'extension PHP pour utiliser Tesseract. PHP possède une extension OCR appelée « tesseract » qui nous permet d'utiliser le moteur Tesseract en PHP.

Sur les systèmes Linux, vous pouvez l'installer à l'aide de la commande suivante :

sudo apt-get install php-tesseract

Sur les systèmes Windows, vous pouvez télécharger l'extension depuis PECL (http://pecl.php.net/package/tesseract) et l'installer. La ligne suivante peut être ajoutée au fichier php.ini pour activer l'extension :

extension=tesseract.so
  1. Recognize text

Ensuite, nous utiliserons PHP et Tesseract pour reconnaître le texte dans une image.

Tout d'abord, nous devons préparer une image contenant le texte qui doit être reconnu. Supposons que nous ayons une image nommée "example.png", nous utiliserons le code suivant pour identifier le texte qu'elle contient :

<?php
    function recognize_text($filename) {
        $tesseract = new TesseractOCR($filename);
        $tesseract->setLanguage('eng');
        $tesseract->setTempDir('/tmp');
        return $tesseract->recognize();
    }

    $filename = 'example.png';
    $text = recognize_text($filename);
    echo $text;
?>

Dans le code ci-dessus, nous avons utilisé la classe TesseractOCR pour identifier le texte dans l'image. Le constructeur de cette classe nécessite un paramètre de nom de fichier, qui est le nom de fichier de l'image qui doit être traitée par OCR.

La méthode setLanguage() précise la langue de reconnaissance à utiliser, ici nous précisons l'anglais. La méthode setTempDir() définit le répertoire utilisé pour stocker les fichiers temporaires pendant le processus de reconnaissance. Enfin, nous appelons la méthode reconnaître() pour effectuer le traitement OCR et renvoyer ou afficher les résultats.

  1. Conclusion

Dans cet article, nous avons appris comment effectuer un traitement OCR à l'aide de PHP et Tesseract. Nous avons d'abord installé le moteur Tesseract OCR et l'extension tesseract, puis avons utilisé du code PHP pour reconnaître le texte d'une image. L'utilisation de la technologie OCR nous aide à extraire du texte modifiable à partir d'images, qui peut être appliqué à divers scénarios, tels que la numérisation de documents, les archives numériques, etc.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn