Rumah  >  Artikel  >  Java  >  Tesseract OCR menggunakan Java dan contohnya

Tesseract OCR menggunakan Java dan contohnya

PHPz
PHPzke hadapan
2023-09-19 23:33:03936semak imbas

使用Java的Tesseract OCR及其示例

Pengenalan

Pengecaman Aksara Optik (OCR) memainkan peranan penting dalam mendigitalkan teks bercetak, menjadikannya lebih padat untuk menyunting, mencari dan menyimpan. Salah satu alat OCR yang paling berkuasa ialah Tesseract OCR. Artikel ini akan meneroka cara menggunakan Java dengan Tesseract OCR, memberikan contoh terperinci untuk meningkatkan pemahaman anda.

Apakah Tesseract OCR?

Tesseract OCR ialah enjin OCR sumber terbuka yang ditaja oleh Google yang boleh mengenali secara langsung lebih daripada 100 bahasa. Ia dipuji secara meluas kerana ketepatan dan kebolehsuaiannya, menjadikannya pilihan popular di kalangan pelbagai pembangun aplikasi.

Sepadukan Tesseract OCR dengan Java

Untuk mengintegrasikan Tesseract OCR dengan Java, kita perlu menggunakan Tess4J, yang biasanya dikenali sebagai Tesseract API untuk Java. Tess4J menyediakan pembalut Java JNA untuk API OCR Tesseract, merapatkan jurang antara enjin Tesseract dan aplikasi Java.

Langkah 1: Sediakan persekitaran

Pertama, kita perlu memasang Tesseract OCR dan Tess4J. Tesseract boleh dipasang pada Windows, Linux dan MacOS menggunakan pengurus pakej masing-masing. Untuk memasukkan Tess4J dalam projek Java anda, anda boleh menambahkannya sebagai kebergantungan Maven -

<dependency>
   <groupId>net.sourceforge.tess4j</groupId>
   <artifactId>tess4j</artifactId>
   <version>4.5.4 </version> <!-- or whatever the latest version is -->
</dependency>

Langkah 2: Lakukan pemprosesan OCR pada imej

Di bawah ialah coretan kod Java yang mudah untuk melakukan OCR pada fail imej -

import net.sourceforge.tess4j.*;

public class OCRExample {
   public static void main(String[] args) {
     File imageFile = new File("path_to_your_image_file");
     ITesseract instance = new Tesseract();  // JNA Interface Mapping
     instance.setDatapath("path_to_tessdata"); // replace with your tessdata path

     try {
         String result = instance.doOCR(imageFile);
         System.out.println(result);
      } catch (TesseractException e) {
         System.err.println(e.getMessage());
      }
   }
}

Dalam contoh ini, kami membuat seketika objek Tesseract dan menetapkan laluan ke direktori tessdata, yang mengandungi fail data bahasa. Kami kemudian memanggil doOCR() pada fail imej, yang mengembalikan rentetan yang mengandungi teks yang diiktiraf.

Langkah 3: Mengendalikan Pelbagai Bahasa

Tesseract OCR menyokong lebih daripada 100 bahasa. Untuk melaksanakan OCR menggunakan bahasa lain, hanya tetapkan bahasa pada contoh Tesseract anda -

instance.setLanguage("fra"); // for French

Kemudian, panggil fungsi doOCR() seperti biasa −

try {
   String result = instance.doOCR(imageFile);
   System.out.println(result);
} catch (TesseractException e) {
   System.err.println(e.getMessage());
}

Imej kini akan OCR menggunakan data Perancis.

Kesimpulan

Tesseract OCR, digabungkan dengan Java, menyediakan set alat yang berkuasa untuk pembangun yang perlu melaksanakan fungsi OCR dalam aplikasi mereka. Fleksibiliti, ketepatan dan sokongan bahasa yang luas Tesseract menjadikannya pilihan yang sangat baik untuk pelbagai tugas OCR.

Atas ialah kandungan terperinci Tesseract OCR menggunakan Java dan contohnya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:tutorialspoint.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam