如何利用tess4j實作Java中的圖片文字辨識功能？-java教程-PHP中文網

首頁

Java

java教程

如何利用tess4j實作Java中的圖片文字辨識功能？

王林

May 09, 2023 pm 05:49 PM

javatess4j

java使用tess4j進行圖片文字辨識

一、簡介

Tess4J 是Java （JNA）對 Tesseract OCR API 的封裝。
很久之前需要做一個自動登陸並對網頁上的未處理的數據進行按鈕點擊，其中需要登陸的驗證碼校驗，因此用了一下Tess4J，能識別一些簡單的文字和數字等，識別率好像一般，但出錯了就重新換一個驗證碼再試，多試幾次也能成功。現將之前簡單的使用流程記錄，備查。

Tess4J是對Tesseract OCR API 的Java JNA 封裝。使java能夠透過呼叫Tess4J的API來使用Tesseract OCR。支援的格式包括TIFF、JPEG、GIF、PNG、BMP、JPEG、PDF。這個開始接觸的時候，我對這兩個東西還搞混淆了。明確說一下，Tess4J是java直接可使用的jar包，而Tesseract OCR是支援Tess4J進檔文字辨識的基礎，Tess4J可直接使用Maven方式引進。

二、使用過程

1.maven依賴引入pom.xml

		<!-- tess4j start -->
		<dependency>
		    <groupId>net.sourceforge.tess4j</groupId>
		    <artifactId>tess4j</artifactId>
		    <version>5.6.0</version>
		</dependency>
		<!-- tess4j end -->

2.準備好tessdata目錄下的語言庫檔案

要提前下載好相關的語言庫文件，這裡我下了chi_sim.traineddata和eng.traineddata兩個
下載地址：https://codechina.csdn.net/mirrors/tesseract-ocr/tessdata
下載好後放在程式碼裡面的目錄下

如何利用tess4j實作Java中的圖片文字辨識功能？

3.寫測試程式碼進行測試

準備兩張圖片放置在程式碼的資源目錄下，方便程式讀取，

圖片1

如何利用tess4j實作Java中的圖片文字辨識功能？

#圖片2

如何利用tess4j實作Java中的圖片文字辨識功能？

#兩張圖片放在資源目錄下

如何利用tess4j實作Java中的圖片文字辨識功能？

#程式碼如下：

package cn.ljhua;

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;

import javax.imageio.ImageIO;

import lombok.extern.slf4j.Slf4j;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

/**
 * Tess4jOcr测试示例
 * @author liujh
 */
@Slf4j
public class Tess4jOcrTest {
	
	public static void main(String[] args) {
		
		Tess4jOcrTest test = new Tess4jOcrTest();
		test.ocrTest();
		
	}
	
	public void ocrTest() {
		
		log.info("ocrTest start....");
		long startMs = System.currentTimeMillis();
		
		 //Tesseract的代码开始---------------------->>>>
		ITesseract instance = new Tesseract();
		
		/**
		 * 组装接好tessdata目录的路径字符串
		 */
		String filePathPre = System.getProperty("user.dir");
    	String dataPath = filePathPre + File.separator + "tessdata";
    	
    	/**
		 * 设置目录datapath the tessdata path to set
		 * 否则会报Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.错误
		 */
    	instance.setDatapath(dataPath);
    	//instance.setLanguage("eng");//默认，可以不写
    	instance.setLanguage("chi_sim");//设置中文识别
		
    	String imageName = "verifyCode.png";
        try (InputStream inStream = this.getClass().getResourceAsStream("/" + imageName)) {
            
        	BufferedImage bImage = ImageIO.read(inStream);
        	//doOCR也可以传参为File，我这里传的BufferedImage
        	String result = instance.doOCR(bImage);
        	//识别的结果回来可能会带回车，处理掉
        	result = result.replaceAll("\n", "");
        	log.info("图片名：" + imageName +" 识别结果："+ result);
        	
        } catch (IOException e) {
            log.error(e.getMessage(),e);
        } catch (TesseractException e) {
        	log.error(e.getMessage(),e);
		}
        
        imageName = "vCode2.jpg";
        try (InputStream inStream = this.getClass().getResourceAsStream("/" + imageName)) {
            
        	BufferedImage bImage = ImageIO.read(inStream);
        	//doOCR也可以传参为File，我这里传的BufferedImage
        	String result = instance.doOCR(bImage);
        	//识别的结果回来可能会带回车，处理掉
        	result = result.replaceAll("\n", "");
        	log.info("图片名：" + imageName +" 识别结果："+ result);
        	
        } catch (IOException e) {
            log.error(e.getMessage(),e);
        } catch (TesseractException e) {
        	log.error(e.getMessage(),e);
		}
		//Tesseract的代码结束--------------------->>>>
        
		log.info("ocrTest success. spend time :{} ms.", (System.currentTimeMillis() - startMs));
		
	}
}

測試結果截圖如：

如何利用tess4j實作Java中的圖片文字辨識功能？

英文辨識出來比較正常，中文辨識出來帶了空格，如果需要可以透過程式碼進一步去掉空格，至此， tess4j的簡單使用測試完成。

以上是如何利用tess4j實作Java中的圖片文字辨識功能？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：亿速云。如有侵權，請聯絡admin@php.cn刪除

說明JVM如何充當Java代碼和基礎操作系統之間的中介。Apr 29, 2025 am 12:23 AM

JVM的工作原理是將Java代碼轉換為機器碼並管理資源。 1）類加載：加載.class文件到內存。 2）運行時數據區：管理內存區域。 3）執行引擎：解釋或編譯執行字節碼。 4）本地方法接口：通過JNI與操作系統交互。

解釋Java虛擬機（JVM）在Java平台獨立性中的作用。Apr 29, 2025 am 12:21 AM

JVM使Java實現跨平台運行。 1）JVM加載、驗證和執行字節碼。 2）JVM的工作包括類加載、字節碼驗證、解釋執行和內存管理。 3）JVM支持高級功能如動態類加載和反射。

您將採取哪些步驟來確保Java應用程序在不同的操作系統上正確運行？Apr 29, 2025 am 12:11 AM

Java應用可通過以下步驟在不同操作系統上運行：1)使用File或Paths類處理文件路徑；2)通過System.getenv()設置和獲取環境變量；3)利用Maven或Gradle管理依賴並測試。 Java的跨平台能力依賴於JVM的抽象層，但仍需手動處理某些操作系統特定的功能。

Java是否需要特定於平台的配置或調整區域？Apr 29, 2025 am 12:11 AM

Java在不同平台上需要進行特定配置和調優。 1)調整JVM參數，如-Xms和-Xmx設置堆大小。 2)選擇合適的垃圾回收策略，如ParallelGC或G1GC。 3)配置Native庫以適應不同平台，這些措施能讓Java應用在各種環境中發揮最佳性能。

哪些工具或庫可以幫助您解決Java開發中特定於平台的挑戰？Apr 29, 2025 am 12:01 AM

Osgi，Apachecommonslang，JNA和JvMoptionsareeForhandlingForhandlingPlatform-specificchallengesinjava.1）osgimanagesdeppedendendencenciesandisolatescomponents.2）apachecommonslangprovidesitorityfunctions.3）

JVM如何在不同平台上管理垃圾收集？Apr 28, 2025 am 12:23 AM

JVMmanagesgarbagecollectionacrossplatformseffectivelybyusingagenerationalapproachandadaptingtoOSandhardwaredifferences.ItemploysvariouscollectorslikeSerial,Parallel,CMS,andG1,eachsuitedfordifferentscenarios.Performancecanbetunedwithflagslike-XX:NewRa