最近在想沒有一個圖片文字辨識的工具呢?我想到了OCR,國內比較牛逼的漢王OCR。那借助python能否實現呢?於是我找啊找查啊查有關PYthon在這方面探討的資料,發現PyTesser 這樣一個好玩的程序!拿出來分享討論一下:
PyTesser 是python的一個光學字元辨識模組,它結合Tesseract OCR引擎來使用 ,能從一個圖片或圖像檔案取出的字串並輸出。
使用PyTesser ,你無須安裝Tesseract OCR引擎,但就必須要先安裝PIL模組(Python Image Library, python的圖形庫)
官方介紹說明:
as input an image or image file and outputs a string.PyTesser uses the Tesseract OCR engine, converting images to an accepted format and calling the Tesseract executable as an external script. should work in other operating systems as well.PyTesser 官方下載地址:http://code.google.com/p/pytesser/downloads/listPIL庫資源位址:http://www.pythonware.com/listPIL庫資源位址:http://www.pythonware.com/ products/pil/不過,在測試使用過程中,發覺只對英文內容辨識較理想,而對中文無法處理辨識! 有興趣的同學可以試驗一下