淺談爬蟲及繞過網站反爬取機制-前端問答-PHP中文網

首頁

web前端

前端問答

淺談爬蟲及繞過網站反爬取機制

coldplay.xixi

Aug 25, 2020 pm 04:50 PM

爬蟲

　淺談爬蟲及繞過網站反爬取機制

【相關學習推薦：#網站製作影片教學】

淺談爬蟲及繞過網站反爬取機制

爬蟲是什麼呢，簡單而片面的說，爬蟲就是由電腦自動與伺服器互動取得資料的工具。爬蟲的最基本就是get一個網頁的源代碼數據，如果更深入一些，就會出現和網頁進行POST交互，獲取伺服器接收POST請求後返回的數據。一句話，爬蟲用來自動獲取來源數據，至於更多的數據處理等等是後續的工作，這篇文章主要想談談爬蟲獲取數據的這一部分。爬蟲請注意網站的Robot.txt文件，不要讓爬蟲違法，也不要讓爬蟲對網站造成傷害。

　反爬及反反爬概念的不恰當舉例

　　基於很多原因(如伺服器資源，保護資料等)，很多網站是限制了爬蟲效果的。

　　考慮一下，由人來扮演爬蟲的角色，我們怎麼取得網頁原始碼?最常用的當然是右鍵原始碼。

淺談爬蟲及繞過網站反爬取機制　　網站屏蔽了右鍵，怎麼辦?

#　　拿出我們做爬蟲中最有用的東西F12(歡迎討論)

淺談爬蟲及繞過網站反爬取機制同時按下F12就可以打開了(滑稽)

淺談爬蟲及繞過網站反爬取機制　　源代碼出來了!!

　　在把人當作爬蟲的情況下，屏蔽右鍵就是反爬取策略，F12就是反反爬取的方式。

　講講正式的反爬取策略

#　　事實上，在寫爬蟲的過程中一定出現過沒有回傳資料的情況，這種時候也許是伺服器限制了UA頭(user-agent)，這就是一種很基本的反爬取，只要發送請求的時候加上UA頭就可以了…是不是很簡單?

　　其實一股腦把需要不需要的Request Headers都加上也是一個簡單粗暴的辦法…

　　有沒有發現網站的驗證碼也是一個反爬取策略呢?為了讓網站的用戶能是真人，驗證碼真是做了很大的貢獻。隨驗證碼而來的，驗證碼辨識出現了。

　　說到這，不知道是先出現了驗證碼識別還是圖片識別呢?

　　簡單的驗證碼現在識別起來是非常簡單的，網上有太多教程，包括稍微進階一下的去噪，二值，分割，重組等概念。可是現在網站人機辨識已經越發的恐怖了起來，比如這種：

#　　簡單講述一下去噪二值的概念

　　將一個驗證尺寸

######變成################就是一個二值，也就是將圖片本身變成只有兩個色調，例子很簡單，透過python PIL庫裡的######　　Image.convert("1")######　　就能實現，但如果圖片變得更為複雜，還是要多思考一下，比如# ##############如果直接用簡單方式的話就會變成################思考一些這種驗證碼應該怎麼辨識?這種時候去噪就派上了用處，根據驗證碼本身的特徵，可以計算驗證碼的底色和字體之外的RGB值等，將這些值變成一個顏色，將字體留出。範例程式碼如下，換色即可###

　　for x in range(0,image.size[0]):
　　for y in range(0,image.size[1]):
　　# print arr2[x][y]
　　if arr[x][y].tolist()==底色:
　　arr[x][y]=0
　　elif arr[x][y].tolist()[0] in range(200,256) and arr[x][y].tolist()[1] in range(200,256) and arr[x][y].tolist()[2] in range(200,256):
　　arr[x][y]=0
　　elif arr[x][y].tolist()==[0,0,0]:
　　arr[x][y]=0
　　else:
　　arr[x][y]=255

###　　arr是由numpy得到的,根據圖片RGB值得出的矩陣,讀者可以自己嘗試完善程式碼，親自實驗一下。 ######　　細緻的處理之後圖片可以變成################識別率還是很高的。 ###

　　在驗證碼的發展中，還算清晰的數字字母，簡單的加減乘除，網上有輪子可以用，有些難的數字字母漢字，也可以自己造輪子(比如上面)，但更多的東西，已經足夠寫一個人工智慧了…(有一種工作就是識別驗證碼…)

　　再加一個小提示：有的網站PC端有驗證碼，而手機端沒有…

　　下一個主題!

　　反爬取策略中比較常見的還有一種封IP的策略，通常是短時間內過多的訪問就會被封禁，這個很簡單，限制訪問頻率或添加IP代理池就OK了,當然，分佈式也可以…

　　IP代理池->左轉Google右轉baidu，有很多代理網站，雖然免費中能用的不多但畢竟可以。

　　還有一種也可以算作反爬蟲策略的就是異步數據，隨著對爬蟲的逐漸深入(明明是網站的更新換代!)，異步加載是一定會遇見的問題，解決方式依然是F12。以不願透露姓名的網易雲音樂網站為例，右鍵開啟原始碼後，試著搜尋一下留言

淺談爬蟲及繞過網站反爬取機制

　　資料呢?!這就是JS和Ajax興起之後異步加載的特點。但是打開F12，切換到NetWork選項卡，刷新頁面，仔細尋找，沒有秘密。

淺談爬蟲及繞過網站反爬取機制

　　哦，對瞭如果你在聽歌的話，點進去還能下載呢…

淺談爬蟲及繞過網站反爬取機制

　　僅為對網站架構的科普，請自覺抵制盜版，保護版權，保護原創者利益。

　　如果說這個網站限制的你死死的，怎麼辦?我們還有最後一計，一個強無敵的組合：selenium PhantomJs

　　這一對組合非常強力，可以完美模擬瀏覽器行為，具體的用法自行百度，不推薦這種辦法，很笨重，此處僅作為科普。

以上是淺談爬蟲及繞過網站反爬取機制的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

React與後端框架：比較Apr 13, 2025 am 12:06 AM

React是前端框架，用於構建用戶界面；後端框架用於構建服務器端應用程序。 React提供組件化和高效的UI更新，後端框架提供完整的後端服務解決方案。選擇技術棧時需考慮項目需求、團隊技能和可擴展性。

HTML和React：標記與組件之間的關係Apr 12, 2025 am 12:03 AM

HTML和React的關係是前端開發的核心，它們共同構建現代Web應用的用戶界面。 1)HTML定義內容結構和語義，React通過組件化構建動態界面。 2)React組件使用JSX語法嵌入HTML，實現智能渲染。 3)組件生命週期管理HTML渲染，根據狀態和屬性動態更新。 4)使用組件優化HTML結構，提高可維護性。 5)性能優化包括避免不必要渲染，使用key屬性，保持組件單一職責。

反應與前端：建立互動體驗Apr 11, 2025 am 12:02 AM

React是構建交互式前端體驗的首選工具。 1)React通過組件化和虛擬DOM簡化UI開發。 2)組件分為函數組件和類組件，函數組件更簡潔，類組件提供更多生命週期方法。 3)React的工作原理依賴虛擬DOM和調和算法，提高性能。 4)狀態管理使用useState或this.state，生命週期方法如componentDidMount用於特定邏輯。 5)基本用法包括創建組件和管理狀態，高級用法涉及自定義鉤子和性能優化。 6)常見錯誤包括狀態更新不當和性能問題，調試技巧包括使用ReactDevTools和優

React和前端堆棧：工具和技術Apr 10, 2025 am 09:34 AM

React是一個用於構建用戶界面的JavaScript庫，其核心是組件化和狀態管理。 1)通過組件化和狀態管理簡化UI開發。 2)工作原理包括調和和渲染，優化可通過React.memo和useMemo實現。 3)基本用法是創建並渲染組件，高級用法包括使用Hooks和ContextAPI。 4)常見錯誤如狀態更新不當，可使用ReactDevTools調試。 5)性能優化包括使用React.memo、虛擬化列表和CodeSplitting，保持代碼可讀性和可維護性是最佳實踐。

React在HTML中的作用：增強用戶體驗Apr 09, 2025 am 12:11 AM

React通過JSX與HTML結合，提升用戶體驗。 1)JSX嵌入HTML，使開發更直觀。 2)虛擬DOM機制優化性能，減少DOM操作。 3)組件化管理UI，提高可維護性。 4)狀態管理和事件處理增強交互性。

REACT組件：在HTML中創建可重複使用的元素Apr 08, 2025 pm 05:53 PM

React組件可以通過函數或類定義，封裝UI邏輯並通過props接受輸入數據。 1)定義組件：使用函數或類，返回React元素。 2)渲染組件：React調用render方法或執行函數組件。 3)復用組件：通過props傳遞數據，構建複雜UI。組件的生命週期方法允許在不同階段執行邏輯，提升開發效率和代碼可維護性。