python怎麼做反爬-Python教學-PHP中文網

首頁

後端開發

Python教學

python怎麼做反爬

(*-*)浩

Jul 01, 2019 pm 02:10 PM

python

網路爬蟲，是一個自動提取網頁的程序，它為搜尋引擎從萬維網上下載網頁，是搜尋引擎的重要組成。但當網路爬蟲被濫用後，網路上就出現太多同質的東西，原創性得不到保護。於是，很多網站開始反網路爬蟲,想辦法保護自己的內容。

python怎麼做反爬

一：User-Agent Referer偵測（推薦學習：Python影片教學）

User- Agent 是HTTP協定的中的一個字段，其作用是描述發出HTTP請求的終端機的一些資訊。

使得伺服器能夠辨識客戶使用的作業系統及版本、CPU 類型、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器外掛程式等。

伺服器透過這個欄位就可以知道造訪網站的是什麼人。對於不是正常瀏覽器的使用者進行屏蔽。

解決方案:

偽裝瀏覽器的User-Agent，因為每個瀏覽器的User-Agent不一樣,並且所有的使用者都能使用瀏覽器。所有每次請求的時候條件瀏覽器的User-Agent，就能解決UA偵測

Referer是header的一部分，當瀏覽器向web伺服器發送請求的時候，一般會帶上Referer，告訴伺服器我是從哪個頁面連結過來的。例如有一些圖片網站在你要求圖片的時候，就會偵測你的Referer值，如果Referer不符合，就不會回傳正常的圖片。

解決方案：

在偵測referer的請求中，攜帶符合的referer值。

二： js混淆和渲染

所謂JavaScript 混淆，基本上就是:

1.去掉一些實際上沒有調用的函數。

2.將零散的變數宣告合併。

3.邏輯函數的精簡。

4.變數名的簡化。具體要看不同的壓縮工具的考量優劣。常見的有UglifyJS、JScrambler等工具。

js渲染其實就是對HTML頁面的修改。例如有一些網頁本身沒有回傳數據，數據是經過js載入之後才加入到HTML當中的。當遇到這種情況的時候，我們要知道爬蟲是否會執行JavaScript操作。所以需要用其他的方法來處理。

解決方案：

1.透過閱讀網站js原始碼，找到關鍵的程式碼，並用python實作。

2.透過閱讀網站js原始碼，找到關鍵的程式碼，用PyV8,execjs等函式庫直接執行js程式碼。

3.透過selenium函式庫直接模擬瀏覽器環境

三：IP限制頻次

WEB系統都是走http協定跟WEB容器連通的，每次請求至少會產生一次客戶端與伺服器的tcp連線。

對於服務端來說可以很清楚的檢視到，一個ip位址在單位時間內發起的請求。

當請求數超過一定的值之後，就可判斷為非正常的使用者請求。

解決方案：

1.自行設計ip代理池，透過輪替的方式，每次請求攜帶不同的代理位址。

2.ADSL動態撥號他有個獨特的特點，每撥一次號，就取得一個新的IP。也就是它的IP是不固定的。

四：驗證碼

驗證碼（CAPTCHA）是「Completely Automated PublicTuring test to tell Computers and HumansApart」（全自動區分電腦與人類的圖靈測試）的縮寫，是一種區分使用者是電腦還是人的公共全自動程式。

可以防止：惡意破解密碼、刷票、論壇灌水，有效防止某個駭客對某一個特定註冊用戶用特定程式暴力破解方式進行不斷的登陸嘗試。

這個問題可以由電腦產生並評判，但是必須只有人類才能解答。由於電腦無法解答CAPTCHA的問題，所以回答出問題的使用者就可以被認為是人類。

解決方案:

1.手動識別驗證碼

#2.pytesseract識別簡單的驗證碼

3.對接打碼平台

4.機器學習

更多Python相關技術文章，請造訪Python教學欄位學習！

以上是python怎麼做反爬的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python的科學計算中如何使用陣列？Apr 25, 2025 am 12:28 AM

Arraysinpython，尤其是Vianumpy，ArecrucialInsCientificComputingfortheireftheireffertheireffertheirefferthe.1）Heasuedfornumerericalicerationalation，dataAnalysis和Machinelearning.2）Numpy'Simpy'Simpy'simplementIncressionSressirestrionsfasteroperoperoperationspasterationspasterationspasterationspasterationspasterationsthanpythonlists.3）inthanypythonlists.3）andAreseNableAblequick

您如何處理同一系統上的不同Python版本？Apr 25, 2025 am 12:24 AM

你可以通過使用pyenv、venv和Anaconda來管理不同的Python版本。 1）使用pyenv管理多個Python版本：安裝pyenv，設置全局和本地版本。 2）使用venv創建虛擬環境以隔離項目依賴。 3）使用Anaconda管理數據科學項目中的Python版本。 4）保留系統Python用於系統級任務。通過這些工具和策略，你可以有效地管理不同版本的Python，確保項目順利運行。

與標準Python陣列相比，使用Numpy數組的一些優點是什麼？Apr 25, 2025 am 12:21 AM

numpyarrayshaveseveraladagesoverandastardandpythonarrays：1）基於基於duetoc的iMplation，2）2）他們的aremoremoremorymorymoremorymoremorymoremorymoremoremory，尤其是WithlargedAtasets和3）效率化，效率化，矢量化函數函數函數函數構成和穩定性構成和穩定性的操作，製造

陣列的同質性質如何影響性能？Apr 25, 2025 am 12:13 AM

數組的同質性對性能的影響是雙重的：1)同質性允許編譯器優化內存訪問，提高性能；2)但限制了類型多樣性，可能導致效率低下。總之，選擇合適的數據結構至關重要。

編寫可執行python腳本的最佳實踐是什麼？Apr 25, 2025 am 12:11 AM

到CraftCraftExecutablePythcripts，lollow TheSebestPractices：1）Addashebangline（＃！/usr/usr/bin/envpython3）tomakethescriptexecutable.2）setpermissionswithchmodwithchmod xyour_script.3）

Numpy數組與使用數組模塊創建的數組有何不同？Apr 24, 2025 pm 03:53 PM

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata，而learthearrayModuleSutableforbasic，內存效率段

Numpy數組的使用與使用Python中的數組模塊陣列相比如何？Apr 24, 2025 pm 03:49 PM

numpyArraySareAreBetterForHeAvyNumericalComputing，而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1）NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2）

CTYPES模塊與Python中的數組有何關係？Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1）usectypestoInterfacewithClibrariesForperfermance.2）createc-stylec-stylec-stylarraysfornumericalcomputations.3）passarraystocfunctions foreforfunctionsforeffortions.however.however，However，HoweverofiousofmemoryManageManiverage，Pressiveo，Pressivero

See all articles