首頁 >後端開發 >Python教學 >Python程式碼實現圖片文字的識別

Python程式碼實現圖片文字的識別

零到壹度
零到壹度原創
2018-04-02 14:12:092726瀏覽

本篇文章給大家分享的是Python代碼實現圖片文字識別,內容挺不錯的,希望可以幫助到有需要的朋友

我們以識別詩詞為例
下面是我們要辨識的圖片

Python程式碼實現圖片文字的識別

先看下效果圖

Python程式碼實現圖片文字的識別
我們執行程式碼後辨識的結果,有幾個字沒有正確識別,但是大多數字都能識別出來。

风急天高猿啸哀 渚芸胄芳少白鸟飞凤
无边落木萧萧下, 不尽长量工盲衮宕衮来
万里悲秋常1乍窨, 百年多病独登氤
艰难苦恨擎霜量 漂倒新停澍酉帆

一行程式碼就能辨識圖片,我們背後要做些準備工作的

  • 這裡我們需要用到兩個函式庫:pytesseract和PIL

  • 同時我們還需要安裝辨識引擎tesseract-ocr

#下面就來講這幾個函式庫的安裝,因為只有這幾個函式庫安裝好以後Python才能實作一行程式碼實作圖片文字辨識

一,pytesseract與PIL的安裝

安裝這兩個套件可以藉助pip
- 1,指令列安裝
pip install PIL
pip install pytesseract
- 2,如果你用的pycharm編輯器,就可以直接使用pycharm實現快速安裝。
在pycharm的Settings設定頁按照下面步驟操作
Python程式碼實現圖片文字的識別
這樣就能成功安裝pytesseract,安裝PIL只需要在上面第三步驟裡搜尋PIL並點擊安裝即可
Python程式碼實現圖片文字的識別

這時我們安轉好了函式庫,運行下面程式碼

from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim')
print(text)

會報下面錯誤,錯誤原因是:沒有安裝識別引擎tesseract-ocr

Python程式碼實現圖片文字的識別

二,安裝識別引擎tesseract-ocr

  • #1.下載下面的安裝包,然後直接點擊安裝即可
    tesseract-ocr安裝包和中文語言包

解壓縮安裝tesseract-ocr後做如下操作,就可以支援中文辨識了。因為tesseract-ocr預設不支援中文辨識。
Python程式碼實現圖片文字的識別

  • 2,安裝完成tesseract-ocr後,我們還需要做一下設定
    在C:\Users\huxiu\AppData\Local\Programs\ Python\Python35\Lib\site-packages\pytesseract找到pytesseract.py開啟後做如下操作

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
#tesseract_cmd = 'tesseract'
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

也可以透過pycharm快速開啟pytesseract.py

Python程式碼實現圖片文字的識別

Python程式碼實現圖片文字的識別

Python程式碼實現圖片文字的識別

#至此我們所有的設定就完成了,運行下面程式碼就可以把杜甫的登高這首圖片詩解析成文字了

Python程式碼實現圖片文字的識別

以上是Python程式碼實現圖片文字的識別的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn