Heim  >  Artikel  >  Backend-Entwicklung  >  So führen Sie eine OCR-Verarbeitung mit PHP und Tesseract durch

So führen Sie eine OCR-Verarbeitung mit PHP und Tesseract durch

王林
王林Original
2023-06-21 13:36:101972Durchsuche

OCR (Optical Character Recognition, Optical Character Recognition) ist eine Technologie, die Text in Bildern in computerlesbaren Text umwandelt. Es hilft Ihnen, Text in Bildern in bearbeitbaren Text umzuwandeln. In diesem Artikel stellen wir vor, wie Sie PHP und die OCR-Engine Tesseract für die OCR-Verarbeitung verwenden.

  1. Tesseract installieren

Zuerst müssen wir die Tesseract OCR-Engine installieren. Tesseract ist eine von Google entwickelte Open-Source-OCR-Engine. Es erkennt mehrere Textsprachen und funktioniert auf vielen verschiedenen Plattformen.

Bei der Installation von Tesseract auf einem Linux-System können Sie den folgenden Befehl verwenden:

sudo apt-get install tesseract-ocr

Auf einem Windows-System können Sie das Installationsprogramm von der offiziellen Website von Tesseract (https://github.com/tesseract-ocr/tesseract) herunterladen und Installieren Sie es.

  1. PHP-Erweiterung installieren

Als nächstes müssen wir die PHP-Erweiterung installieren, um Tesseract verwenden zu können. PHP verfügt über eine OCR-Erweiterung namens „tesseract“, die es uns ermöglicht, die Tesseract-Engine in PHP zu verwenden.

Auf Linux-Systemen können Sie es mit dem folgenden Befehl installieren:

sudo apt-get install php-tesseract

Auf Windows-Systemen können Sie die Erweiterung von PECL (http://pecl.php.net/package/tesseract) herunterladen und installieren. Die folgende Zeile kann zur Datei php.ini hinzugefügt werden, um die Erweiterung zu aktivieren:

extension=tesseract.so
  1. Text erkennen

Als nächstes verwenden wir PHP und Tesseract, um Text in einem Bild zu erkennen.

Zuerst müssen wir ein Bild vorbereiten, das den zu erkennenden Text enthält. Angenommen, wir haben ein Bild mit dem Namen „example.png“, dann verwenden wir den folgenden Code, um den darin enthaltenen Text zu identifizieren:

<?php
    function recognize_text($filename) {
        $tesseract = new TesseractOCR($filename);
        $tesseract->setLanguage('eng');
        $tesseract->setTempDir('/tmp');
        return $tesseract->recognize();
    }

    $filename = 'example.png';
    $text = recognize_text($filename);
    echo $text;
?>

Im obigen Code haben wir die TesseractOCR-Klasse verwendet, um den Text im Bild zu identifizieren. Der Konstruktor dieser Klasse erfordert einen Dateinamenparameter, bei dem es sich um den Dateinamen des Bildes handelt, das OCR-verarbeitet werden muss.

Die Methode setLanguage() gibt die zu verwendende Erkennungssprache an, hier geben wir Englisch an. Die Methode setTempDir() legt das Verzeichnis fest, in dem temporäre Dateien während des Erkennungsprozesses gespeichert werden. Schließlich rufen wir die Methode „recognize()“ auf, um die OCR-Verarbeitung durchzuführen und die Ergebnisse zurückzugeben oder auszugeben.

  1. Fazit

In diesem Artikel haben wir gelernt, wie man OCR-Verarbeitung mit PHP und Tesseract durchführt. Wir haben zuerst die Tesseract OCR-Engine und die Tesseract-Erweiterung installiert und dann PHP-Code verwendet, um den Text in einem Bild zu erkennen. Mithilfe der OCR-Technologie können wir bearbeitbaren Text aus Bildern extrahieren, der auf verschiedene Szenarien angewendet werden kann, z. B. beim Scannen von Dokumenten, digitalen Archiven usw.

Das obige ist der detaillierte Inhalt vonSo führen Sie eine OCR-Verarbeitung mit PHP und Tesseract durch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn