搜尋
首頁web前端前端問答淺談爬蟲及繞過網站反爬取機制

 淺談爬蟲及繞過網站反爬取機制

【相關學習推薦:#網站製作影片教學

淺談爬蟲及繞過網站反爬取機制

淺談爬蟲及繞過網站反爬取機制

      爬蟲是什麼呢,簡單而片面的說,爬蟲就是由電腦自動與伺服器互動取得資料的工具。爬蟲的最基本就是get一個網頁的源代碼數據,如果更深入一些,就會出現和網頁進行POST交互,獲取伺服器接收POST請求後返回的數據。一句話,爬蟲用來自動獲取來源數據,至於更多的數據處理等等是後續的工作,這篇文章主要想談談爬蟲獲取數據的這一部分。爬蟲請注意網站的Robot.txt文件,不要讓爬蟲違法,也不要讓爬蟲對網站造成傷害。

 

 反爬及反反爬概念的不恰當舉例

  基於很多原因(如伺服器資源,保護資料等),很多網站是限制了爬蟲效果的。

  考慮一下,由人來扮演爬蟲的角色,我們怎麼取得網頁原始碼?最常用的當然是右鍵原始碼。

淺談爬蟲及繞過網站反爬取機制  網站屏蔽了右鍵,怎麼辦?

#  拿出我們做爬蟲中最有用的東西F12(歡迎討論)

淺談爬蟲及繞過網站反爬取機制同時按下F12就可以打開了(滑稽)

淺談爬蟲及繞過網站反爬取機制  源代碼出來了!!

  在把人當作爬蟲的情況下,屏蔽右鍵就是反爬取策略,F12就是反反爬取的方式。

 

 講講正式的反爬取策略

#  事實上,在寫爬蟲的過程中一定出現過沒有回傳資料的情況,這種時候也許是伺服器限制了UA頭(user-agent),這就是一種很基本的反爬取,只要發送請求的時候加上UA頭就可以了…是不是很簡單?

  其實一股腦把需要不需要的Request Headers都加上也是一個簡單粗暴的辦法…

  有沒有發現網站的驗證碼也是一個反爬取策略呢?為了讓網站的用戶能是真人,驗證碼真是做了很大的貢獻。隨驗證碼而來的,驗證碼辨識出現了。

  說到這,不知道是先出現了驗證碼識別還是圖片識別呢?

  簡單的驗證碼現在識別起來是非常簡單的,網上有太多教程,包括稍微進階一下的去噪,二值,分割,重組等概念。可是現在網站人機辨識已經越發的恐怖了起來,比如這種:

#  簡單講述一下去噪二值的概念

  將一個驗證尺寸

######變成################就是一個二值,也就是將圖片本身變成只有兩個色調,例子很簡單,透過python PIL庫裡的######  Image.convert("1")######  就能實現,但如果圖片變得更為複雜,還是要多思考一下,比如# ##############如果直接用簡單方式的話就會變成################思考一些這種驗證碼應該怎麼辨識?這種時候去噪就派上了用處,根據驗證碼本身的特徵,可以計算驗證碼的底色和字體之外的RGB值等,將這些值變成一個顏色,將字體留出。範例程式碼如下,換色即可###
  for x in range(0,image.size[0]):
  for y in range(0,image.size[1]):
  # print arr2[x][y]
  if arr[x][y].tolist()==底色:
  arr[x][y]=0
  elif arr[x][y].tolist()[0] in range(200,256) and arr[x][y].tolist()[1] in range(200,256) and arr[x][y].tolist()[2] in range(200,256):
  arr[x][y]=0
  elif arr[x][y].tolist()==[0,0,0]:
  arr[x][y]=0
  else:
  arr[x][y]=255
###  arr是由numpy得到的,根據圖片RGB值得出的矩陣,讀者可以自己嘗試完善程式碼,親自實驗一下。 ######  細緻的處理之後圖片可以變成################識別率還是很高的。 ###

  在驗證碼的發展中,還算清晰的數字字母,簡單的加減乘除,網上有輪子可以用,有些難的數字字母漢字,也可以自己造輪子(比如上面),但更多的東西,已經足夠寫一個人工智慧了…(有一種工作就是識別驗證碼…)

  再加一個小提示:有的網站PC端有驗證碼,而手機端沒有…

  下一個主題!

  反爬取策略中比較常見的還有一種封IP的策略,通常是短時間內過多的訪問就會被封禁,這個很簡單,限制訪問頻率或添加IP代理池就OK了,當然,分佈式也可以…

  IP代理池->左轉Google右轉baidu,有很多代理網站,雖然免費中能用的不多但畢竟可以。

  還有一種也可以算作反爬蟲策略的就是異步數據,隨著對爬蟲的逐漸深入(明明是網站的更新換代!),異步加載是一定會遇見的問題,解決方式依然是F12。以不願透露姓名的網易雲音樂網站為例,右鍵開啟原始碼後,試著搜尋一下留言

淺談爬蟲及繞過網站反爬取機制

  資料呢?!這就是JS和Ajax興起之後異步加載的特點。但是打開F12,切換到NetWork選項卡,刷新頁面,仔細尋找,沒有秘密。

淺談爬蟲及繞過網站反爬取機制

  哦,對瞭如果你在聽歌的話,點進去還能下載呢…

淺談爬蟲及繞過網站反爬取機制

  僅為對網站架構的科普,請自覺抵制盜版,保護版權,保護原創者利益。

  如果說這個網站限制的你死死的,怎麼辦?我們還有最後一計,一個強無敵的組合:selenium PhantomJs

  這一對組合非常強力,可以完美模擬瀏覽器行為,具體的用法自行百度,不推薦這種辦法,很笨重,此處僅作為科普。

以上是淺談爬蟲及繞過網站反爬取機制的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
React與後端框架:比較React與後端框架:比較Apr 13, 2025 am 12:06 AM

React是前端框架,用於構建用戶界面;後端框架用於構建服務器端應用程序。 React提供組件化和高效的UI更新,後端框架提供完整的後端服務解決方案。選擇技術棧時需考慮項目需求、團隊技能和可擴展性。

HTML和React:標記與組件之間的關係HTML和React:標記與組件之間的關係Apr 12, 2025 am 12:03 AM

HTML和React的關係是前端開發的核心,它們共同構建現代Web應用的用戶界面。 1)HTML定義內容結構和語義,React通過組件化構建動態界面。 2)React組件使用JSX語法嵌入HTML,實現智能渲染。 3)組件生命週期管理HTML渲染,根據狀態和屬性動態更新。 4)使用組件優化HTML結構,提高可維護性。 5)性能優化包括避免不必要渲染,使用key屬性,保持組件單一職責。

反應與前端:建立互動體驗反應與前端:建立互動體驗Apr 11, 2025 am 12:02 AM

React是構建交互式前端體驗的首選工具。 1)React通過組件化和虛擬DOM簡化UI開發。 2)組件分為函數組件和類組件,函數組件更簡潔,類組件提供更多生命週期方法。 3)React的工作原理依賴虛擬DOM和調和算法,提高性能。 4)狀態管理使用useState或this.state,生命週期方法如componentDidMount用於特定邏輯。 5)基本用法包括創建組件和管理狀態,高級用法涉及自定義鉤子和性能優化。 6)常見錯誤包括狀態更新不當和性能問題,調試技巧包括使用ReactDevTools和優

React和前端堆棧:工具和技術React和前端堆棧:工具和技術Apr 10, 2025 am 09:34 AM

React是一個用於構建用戶界面的JavaScript庫,其核心是組件化和狀態管理。 1)通過組件化和狀態管理簡化UI開發。 2)工作原理包括調和和渲染,優化可通過React.memo和useMemo實現。 3)基本用法是創建並渲染組件,高級用法包括使用Hooks和ContextAPI。 4)常見錯誤如狀態更新不當,可使用ReactDevTools調試。 5)性能優化包括使用React.memo、虛擬化列表和CodeSplitting,保持代碼可讀性和可維護性是最佳實踐。

React在HTML中的作用:增強用戶體驗React在HTML中的作用:增強用戶體驗Apr 09, 2025 am 12:11 AM

React通過JSX與HTML結合,提升用戶體驗。 1)JSX嵌入HTML,使開發更直觀。 2)虛擬DOM機制優化性能,減少DOM操作。 3)組件化管理UI,提高可維護性。 4)狀態管理和事件處理增強交互性。

REACT組件:在HTML中創建可重複使用的元素REACT組件:在HTML中創建可重複使用的元素Apr 08, 2025 pm 05:53 PM

React組件可以通過函數或類定義,封裝UI邏輯並通過props接受輸入數據。 1)定義組件:使用函數或類,返回React元素。 2)渲染組件:React調用render方法或執行函數組件。 3)復用組件:通過props傳遞數據,構建複雜UI。組件的生命週期方法允許在不同階段執行邏輯,提升開發效率和代碼可維護性。

反應嚴格模式目的反應嚴格模式目的Apr 02, 2025 pm 05:51 PM

React嚴格模式是一種開發工具,可通過激活其他檢查和警告來突出反應應用中的潛在問題。它有助於識別遺產代碼,不安全的生命週期和副作用,鼓勵現代反應實踐。

反應碎片使用反應碎片使用Apr 02, 2025 pm 05:50 PM

React片段允許將兒童分組而沒有額外的DOM節點,增強結構,性能和可訪問性。他們支持鑰匙以進行有效的列表渲染。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),