首頁  >  文章  >  後端開發  >  如何使用 Python 的 Requests 函式庫偽造瀏覽器存取?

如何使用 Python 的 Requests 函式庫偽造瀏覽器存取?

Patricia Arquette
Patricia Arquette原創
2024-11-11 22:09:03168瀏覽

How to Fake a Browser Visit with Python's Requests Library?

如何使用Python 的Requests 庫偽造瀏覽器存取

當使用Python 的Requests 套件或wget 指令等工具以程式方式存取網站時,您與透過網頁瀏覽器造訪網站時相比,檢索到的HTML 內容可能會有所差異。這種差異源於這樣一個事實:網站通常採用機制來區分真正的瀏覽器存取和自動請求。

克服這項挑戰的一種有效方法是透過提供「User-Agent」標頭來模擬合法的瀏覽器存取在你的要求中。此標頭包含有關所使用的特定瀏覽器和版本的信息,這有助於網站將其識別為人類發起的訪問。

要使用 Python 的 Requests 函式庫實作此解決方案,請依照下列步驟操作:

  1. 匯入請求模組。
  2. 定義您要造訪的網站的 URL。
  3. 建立具有以下鍵值對的標頭字典:「User-Agent」:「Mozilla/5.0(Macintosh;Intel Mac OS X 10_10_1)AppleWebKit/537.36(KHTML,如Gecko)Chrome/39.0.2171. Safari/537.36」。這是 Google Chrome 的常見用戶代理字串的範例。
  4. 使用 requests.get() 方法向網站發送 GET 請求,並傳入 headers 字典作為參數。
  5. 回應物件包含 HTML 內容,可以使用 .content 存取該內容。

範例程式碼:

作為參考,這裡提供了不同瀏覽器的用戶代理字串的完整列表:

[所有瀏覽器列表](https://deviceatlas.com/ blog/list-of-user-agent-strings)

或者,您可以使用fake-useragent 第三方包,這可以簡化流程產生真實的使用者代理字串。下面是它的用法示範:

以上是如何使用 Python 的 Requests 函式庫偽造瀏覽器存取?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn