首頁  >  文章  >  後端開發  >  python爬蟲入門級識別驗證碼

python爬蟲入門級識別驗證碼

PHPz
PHPz原創
2017-03-05 13:48:382296瀏覽

前情:這篇文章所提及的內容是博主上個暑假時候做的,一直沒有沉下心來把自己的心得寫在紙面上,所幸這個假期閒暇時候比較多,想著能寫多少是多少,於是就有了此篇。

驗證碼?我也能破解?

關於驗證碼的介紹就不多說了,各種各樣的驗證碼在人們生活中時不時就會冒出來,博主身為東北大學的學生,日常接觸最多的就是教務處系統的驗證碼了。
東大的驗證碼一直被學生吐槽,太難輸入了,不僅區分大小寫,有些時候你明明輸入正確了,卻提示出錯,而這個時候 禁止你的左鍵複製 也許該彈出來了。
(不過1python爬蟲入門級識別驗證碼-17學年度教務處更改了驗證碼的內容,更方便人類操作了。)

可以看出教務處的驗證碼十分有規律,每個字母數字的大小位置形狀等等都是固定的,這正適合毫無基礎的初學者進行驗證碼的識別。

識別辦法

模擬登陸有著複雜的步驟,在這裡咱們不管其他操作,只負責根據輸入的一張驗證碼圖片返回一個答案字串。

我們知道驗證碼為了製作幹擾,會把圖片弄成五顏六色的樣子,而我們首先就是要去除這些幹擾,這一步就需要不斷試驗了,增強圖片色彩,加大對比度等等都可以產生幫助。

在經過各種對圖片的操作之後,終於找到了比較完美的去除乾擾方案。可以看到在去除乾擾之後,最優情況下,我們將得到一張十分純淨的黑白字元圖片。一張圖片上有四個字符,沒辦法一下子就把四個字符全部識別,需要把圖片進行裁剪,裁剪成每張小圖只有一個字符的樣子,再對每張圖片分別進行識別。

接下來就是辨識文字了,我們先把得到的小圖轉換成01表示的矩陣,每個矩陣代表一個字元。
例如數字六的矩陣

num_python爬蟲入門級識別驗證碼python爬蟲入門級識別驗證碼[
0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,1,1,0,0,0,0,0,0,
0,0,0,0,1,1,1,0,0,0,0,0,0,
0,0,0,1,1,1,0,0,0,0,0,0,0,
0,0,0,1,1,0,0,0,0,0,0,0,0,
0,0,1,1,0,0,0,0,0,0,0,0,0,
0,0,1,1,0,0,0,0,0,0,0,0,0,
0,1,1,1,1,1,1,1,0,0,0,0,0,
0,1,1,1,1,1,1,1,1,0,0,0,0,
0,1,1,0,0,0,0,1,1,1,0,0,0,
0,1,1,0,0,0,0,0,1,1,0,0,0,
0,1,1,0,0,0,0,0,1,1,0,0,0,
0,1,1,1,0,0,0,1,1,1,0,0,0,
0,0,1,1,1,1,1,1,1,0,0,0,0,
0,0,0,1,1,1,1,1,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,
]

遠遠望過去,瞇著眼睛還是能分辨出來的。
因為東大教務處的驗證碼十分規整,每個數字所在的位置都是固定的,所以並不需要涉及什麼機器學習的演算法,只是簡單的進行一下矩陣的比對就可以了,在所有的實現做好的矩陣中找到相似度最高的矩陣就可以了,這裡的比對方法多種多樣,反正數據簡單能正確辨識出來就好。

至此,咱們的驗證碼識別工作就結束了。

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn