Die optische Zeichenerkennung (OCR) spielt eine wichtige Rolle bei der Digitalisierung gedruckter Texte und macht sie für die Bearbeitung, Suche und Speicherung kompakter. Eines der leistungsstärksten OCR-Tools ist Tesseract OCR. In diesem Artikel wird die Verwendung von Java mit Tesseract OCR erläutert und detaillierte Beispiele bereitgestellt, um Ihr Verständnis zu verbessern.
Tesseract OCR ist eine von Google gesponserte Open-Source-OCR-Engine, die mehr als 100 Sprachen direkt erkennen kann. Es wird weithin für seine Genauigkeit und Anpassungsfähigkeit gelobt, was es zu einer beliebten Wahl bei verschiedenen Anwendungsentwicklern macht.
Um Tesseract OCR mit Java zu integrieren, müssen wir Tess4J verwenden, allgemein bekannt als Tesseract API für Java. Tess4J bietet einen Java-JNA-Wrapper für die Tesseract OCR-API und schließt damit die Lücke zwischen der Tesseract-Engine und Java-Anwendungen.
Zuerst müssen wir Tesseract OCR und Tess4J installieren. Tesseract kann mit den jeweiligen Paketmanagern unter Windows, Linux und MacOS installiert werden. Um Tess4J in Ihr Java-Projekt einzubinden, können Sie es als Maven-Abhängigkeit hinzufügen -
<dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.5.4 </version> <!-- or whatever the latest version is --> </dependency>
Unten finden Sie ein einfaches Java-Code-Snippet zum Durchführen von OCR an einer Bilddatei -
import net.sourceforge.tess4j.*; public class OCRExample { public static void main(String[] args) { File imageFile = new File("path_to_your_image_file"); ITesseract instance = new Tesseract(); // JNA Interface Mapping instance.setDatapath("path_to_tessdata"); // replace with your tessdata path try { String result = instance.doOCR(imageFile); System.out.println(result); } catch (TesseractException e) { System.err.println(e.getMessage()); } } }
In diesem Beispiel instanziieren wir ein Tesseract-Objekt und legen den Pfad zum Tessdata-Verzeichnis fest, das die Sprachdatendateien enthält. Anschließend rufen wir doOCR() für die Bilddatei auf, wodurch eine Zeichenfolge zurückgegeben wird, die den erkannten Text enthält.
Tesseract OCR unterstützt mehr als 100 Sprachen. Um OCR in einer anderen Sprache durchzuführen, stellen Sie einfach die Sprache auf Ihrer Tesseract-Instanz ein –
instance.setLanguage("fra"); // for French
Dann rufen Sie wie gewohnt die Funktion doOCR() auf −
try { String result = instance.doOCR(imageFile); System.out.println(result); } catch (TesseractException e) { System.err.println(e.getMessage()); }
Bilder werden jetzt mit französischen Daten OCR-bearbeitet.
Tesseract OCR bietet in Kombination mit Java ein leistungsstarkes Toolset für Entwickler, die OCR-Funktionalität in ihren Anwendungen implementieren müssen. Die Flexibilität, Genauigkeit und umfassende Sprachunterstützung von Tesseract machen es zu einer hervorragenden Wahl für eine Vielzahl von OCR-Aufgaben.
Das obige ist der detaillierte Inhalt vonTesseract OCR mit Java und seinen Beispielen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!