Heim > Artikel > Backend-Entwicklung > So führen Sie eine OCR-Verarbeitung mit PHP und Tesseract durch
OCR (Optical Character Recognition, Optical Character Recognition) ist eine Technologie, die Text in Bildern in computerlesbaren Text umwandelt. Es hilft Ihnen, Text in Bildern in bearbeitbaren Text umzuwandeln. In diesem Artikel stellen wir vor, wie Sie PHP und die OCR-Engine Tesseract für die OCR-Verarbeitung verwenden.
Zuerst müssen wir die Tesseract OCR-Engine installieren. Tesseract ist eine von Google entwickelte Open-Source-OCR-Engine. Es erkennt mehrere Textsprachen und funktioniert auf vielen verschiedenen Plattformen.
Bei der Installation von Tesseract auf einem Linux-System können Sie den folgenden Befehl verwenden:
sudo apt-get install tesseract-ocr
Auf einem Windows-System können Sie das Installationsprogramm von der offiziellen Website von Tesseract (https://github.com/tesseract-ocr/tesseract) herunterladen und Installieren Sie es.
Als nächstes müssen wir die PHP-Erweiterung installieren, um Tesseract verwenden zu können. PHP verfügt über eine OCR-Erweiterung namens „tesseract“, die es uns ermöglicht, die Tesseract-Engine in PHP zu verwenden.
Auf Linux-Systemen können Sie es mit dem folgenden Befehl installieren:
sudo apt-get install php-tesseract
Auf Windows-Systemen können Sie die Erweiterung von PECL (http://pecl.php.net/package/tesseract) herunterladen und installieren. Die folgende Zeile kann zur Datei php.ini hinzugefügt werden, um die Erweiterung zu aktivieren:
extension=tesseract.so
Als nächstes verwenden wir PHP und Tesseract, um Text in einem Bild zu erkennen.
Zuerst müssen wir ein Bild vorbereiten, das den zu erkennenden Text enthält. Angenommen, wir haben ein Bild mit dem Namen „example.png“, dann verwenden wir den folgenden Code, um den darin enthaltenen Text zu identifizieren:
<?php function recognize_text($filename) { $tesseract = new TesseractOCR($filename); $tesseract->setLanguage('eng'); $tesseract->setTempDir('/tmp'); return $tesseract->recognize(); } $filename = 'example.png'; $text = recognize_text($filename); echo $text; ?>
Im obigen Code haben wir die TesseractOCR-Klasse verwendet, um den Text im Bild zu identifizieren. Der Konstruktor dieser Klasse erfordert einen Dateinamenparameter, bei dem es sich um den Dateinamen des Bildes handelt, das OCR-verarbeitet werden muss.
Die Methode setLanguage() gibt die zu verwendende Erkennungssprache an, hier geben wir Englisch an. Die Methode setTempDir() legt das Verzeichnis fest, in dem temporäre Dateien während des Erkennungsprozesses gespeichert werden. Schließlich rufen wir die Methode „recognize()“ auf, um die OCR-Verarbeitung durchzuführen und die Ergebnisse zurückzugeben oder auszugeben.
In diesem Artikel haben wir gelernt, wie man OCR-Verarbeitung mit PHP und Tesseract durchführt. Wir haben zuerst die Tesseract OCR-Engine und die Tesseract-Erweiterung installiert und dann PHP-Code verwendet, um den Text in einem Bild zu erkennen. Mithilfe der OCR-Technologie können wir bearbeitbaren Text aus Bildern extrahieren, der auf verschiedene Szenarien angewendet werden kann, z. B. beim Scannen von Dokumenten, digitalen Archiven usw.
Das obige ist der detaillierte Inhalt vonSo führen Sie eine OCR-Verarbeitung mit PHP und Tesseract durch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!