首頁  >  文章  >  後端開發  >  如何在 Python urllib2 中設定自訂使用者代理程式以進行網頁抓取?

如何在 Python urllib2 中設定自訂使用者代理程式以進行網頁抓取?

Patricia Arquette
Patricia Arquette原創
2024-11-01 08:54:02430瀏覽

How to Set Custom User Agents in Python urllib2 for Web Scraping?

在urllib2 中設定使用者代理

使用urllib2.urlopen 進行網頁時,預設使用者代理程式通常抓取是Python 套件名稱。這可能並不總是理想的,因為網站可以根據用戶代理強制實施限制。若要修改使用者代理,可以使用自訂 urllib2 opener。

在 Python 2.x 中,urllib2.build_opener 可用來建立一個新的 opener自訂標頭,包括使用者代理程式。以下程式碼片段示範如何將使用者代理程式變更為Mozilla:

opener = urllib2.build_opener()
opener.addheaders = [('User-Agent', 'Mozilla/5.0')]
response = opener.open('http://www.stackoverflow.com')

在Python 3 中,相當於urllib2.build_openerurllib.request.build_opener

urllib.request.build_opener 是urllib.request.build_opener 是urllib.request.build_opener 是urllib.request.build_opener 是urllib.request.build_opener

以上是如何在 Python urllib2 中設定自訂使用者代理程式以進行網頁抓取?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn