Heim  >  Artikel  >  Java  >  Tesseract OCR mit Java und seinen Beispielen

Tesseract OCR mit Java und seinen Beispielen

PHPz
PHPznach vorne
2023-09-19 23:33:031010Durchsuche

使用Java的Tesseract OCR及其示例

Einführung

Die optische Zeichenerkennung (OCR) spielt eine wichtige Rolle bei der Digitalisierung gedruckter Texte und macht sie für die Bearbeitung, Suche und Speicherung kompakter. Eines der leistungsstärksten OCR-Tools ist Tesseract OCR. In diesem Artikel wird die Verwendung von Java mit Tesseract OCR erläutert und detaillierte Beispiele bereitgestellt, um Ihr Verständnis zu verbessern.

Was ist Tesseract OCR?

Tesseract OCR ist eine von Google gesponserte Open-Source-OCR-Engine, die mehr als 100 Sprachen direkt erkennen kann. Es wird weithin für seine Genauigkeit und Anpassungsfähigkeit gelobt, was es zu einer beliebten Wahl bei verschiedenen Anwendungsentwicklern macht.

Integrieren Sie Tesseract OCR mit Java

Um Tesseract OCR mit Java zu integrieren, müssen wir Tess4J verwenden, allgemein bekannt als Tesseract API für Java. Tess4J bietet einen Java-JNA-Wrapper für die Tesseract OCR-API und schließt damit die Lücke zwischen der Tesseract-Engine und Java-Anwendungen.

Schritt 1: Umgebung einrichten

Zuerst müssen wir Tesseract OCR und Tess4J installieren. Tesseract kann mit den jeweiligen Paketmanagern unter Windows, Linux und MacOS installiert werden. Um Tess4J in Ihr Java-Projekt einzubinden, können Sie es als Maven-Abhängigkeit hinzufügen -

<dependency>
   <groupId>net.sourceforge.tess4j</groupId>
   <artifactId>tess4j</artifactId>
   <version>4.5.4 </version> <!-- or whatever the latest version is -->
</dependency>

Schritt 2: Führen Sie eine OCR-Verarbeitung für das Bild durch

Unten finden Sie ein einfaches Java-Code-Snippet zum Durchführen von OCR an einer Bilddatei -

import net.sourceforge.tess4j.*;

public class OCRExample {
   public static void main(String[] args) {
     File imageFile = new File("path_to_your_image_file");
     ITesseract instance = new Tesseract();  // JNA Interface Mapping
     instance.setDatapath("path_to_tessdata"); // replace with your tessdata path

     try {
         String result = instance.doOCR(imageFile);
         System.out.println(result);
      } catch (TesseractException e) {
         System.err.println(e.getMessage());
      }
   }
}

In diesem Beispiel instanziieren wir ein Tesseract-Objekt und legen den Pfad zum Tessdata-Verzeichnis fest, das die Sprachdatendateien enthält. Anschließend rufen wir doOCR() für die Bilddatei auf, wodurch eine Zeichenfolge zurückgegeben wird, die den erkannten Text enthält.

Schritt 3: Umgang mit mehreren Sprachen

Tesseract OCR unterstützt mehr als 100 Sprachen. Um OCR in einer anderen Sprache durchzuführen, stellen Sie einfach die Sprache auf Ihrer Tesseract-Instanz ein –

instance.setLanguage("fra"); // for French

Dann rufen Sie wie gewohnt die Funktion doOCR() auf −

try {
   String result = instance.doOCR(imageFile);
   System.out.println(result);
} catch (TesseractException e) {
   System.err.println(e.getMessage());
}

Bilder werden jetzt mit französischen Daten OCR-bearbeitet.

Fazit

Tesseract OCR bietet in Kombination mit Java ein leistungsstarkes Toolset für Entwickler, die OCR-Funktionalität in ihren Anwendungen implementieren müssen. Die Flexibilität, Genauigkeit und umfassende Sprachunterstützung von Tesseract machen es zu einer hervorragenden Wahl für eine Vielzahl von OCR-Aufgaben.

Das obige ist der detaillierte Inhalt vonTesseract OCR mit Java und seinen Beispielen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:tutorialspoint.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen