Python實作爬蟲設定代理IP和偽裝成瀏覽器的方法分享-Python教學-PHP中文網

首頁

後端開發

Python教學

Python實作爬蟲設定代理IP和偽裝成瀏覽器的方法分享

不言

May 07, 2018 pm 02:03 PM

firefoxpythonwebkit

這篇文章主要介紹了關於Python實現爬蟲設定代理IP和偽裝成瀏覽器的方法分享，有著一定的參考價值，現在分享給大家，有需要的朋友可以參考一下

1.python爬蟲瀏覽器偽裝

#导入urllib.request模块
import urllib.request
#设置请求头
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
#创建一个opener
opener=urllib.request.build_opener()
#将headers添加到opener中
opener.addheaders=[headers]
#将opener安装为全局
urllib.request.install_opener(opener)
#用urlopen打开网页
data=urllib.request.urlopen(url).read().decode(&#39;utf-8&#39;,&#39;ignore&#39;)

2.設定代理程式

#定义代理ip
proxy_addr="122.241.72.191:808"
#设置代理
proxy=urllib.request.ProxyHandle({&#39;http&#39;:proxy_addr})
#创建一个opener
opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandle)
#将opener安装为全局
urllib.request.install_opener(opener)
#用urlopen打开网页
data=urllib.request.urlopen(url).read().decode(&#39;utf-8&#39;,&#39;ignore&#39;)

3.同時設定用代理程式和模擬瀏覽器存取

#定义代理ip
proxy_addr="122.241.72.191:808"
#创建一个请求
req=urllib.request.Request(url)
#添加headers
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)
#设置代理
proxy=urllib.request.ProxyHandle("http":proxy_addr)
#创建一个opener
opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandle)
#将opener安装为全局
urllib.request.install_opener(opener)
#用urlopen打开网页
data=urllib.request.urlopen(req).read().decode(&#39;utf-8&#39;,&#39;ignore&#39;)

4.在請求頭中加入多個資訊

import urllib.request
page_headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0",
       "Host":"www.baidu.com",
       "Cookie":"xxxxxxxx"
       }
req=urllib.request.Request(url,headers=page_headers)
data=urllib.request.urlopen(req).read().decode(&#39;utf-8&#39;,&#39;ignore&#39;)

5.新增post請求參數

import urllib.request
import urllib.parse
#设置post参数
page_data=urllib.parse.urlencode([
                  (&#39;pn&#39;,page_num),
                  (&#39;kd&#39;,keywords)
                  ])
#设置headers
page_headers={
     &#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0&#39;,
     &#39;Connection&#39;:&#39;keep-alive&#39;,
     &#39;Host&#39;:&#39;www.lagou.com&#39;,
     &#39;Origin&#39;:&#39;https://www.lagou.com&#39;,
     &#39;Cookie&#39;:&#39;JSESSIONID=ABAAABAABEEAAJA8F28C00A88DC4D771796BB5C6FFA2DDA; user_trace_token=20170715131136-d58c1f22f6434e9992fc0b35819a572b&#39;,
     &#39;Accept&#39;:&#39;application/json, text/javascript, */*; q=0.01&#39;,
     &#39;Content-Type&#39;:&#39;application/x-www-form-urlencoded; charset=UTF-8&#39;,
     &#39;Referer&#39;:&#39;https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98?labelWords=&fromSearch=true&suginput=&#39;,
     &#39;X-Anit-Forge-Token&#39;:&#39;None&#39;,
     &#39;X-Requested-With&#39;:&#39;XMLHttpRequest&#39;
     }
#打开网页
req=urllib.request.Request(url,headers=page_headers)
data=urllib.request.urlopen(req,data=page_data.encode(&#39;utf-8&#39;)).read().decode(&#39;utf-8&#39;)

6.利用phantomjs模擬瀏覽器請求

#1.下载phantomjs安装到本地,并设置环境变量
from selenium import webdriver
bs=webdriver.PhantomJS()
#打开url
bs.get(url)
#获取网页源码
url_data=bs.page_source
#将浏览到的网页保存为图片
bs.get_screenshot_as_file(filename)

7.phantomjs設定user-agent和cookie

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
bs = webdriver.PhantomJS(desired_capabilities=dcap)
bs.get(url)
#删除cookie
bs.delete_all_cookies()
#设置cookie
#cookie格式：在浏览器cookie中查看，一个cookie需要包含以下参数，domain、name、value、path
cookie={
  &#39;domain&#39;:&#39;.www.baidu.com&#39;, #注意前面有.
  &#39;name&#39;:&#39;xxxx&#39;, 
  &#39;value&#39;:&#39;xxxx&#39;, 
  &#39;path&#39;:&#39;xxxx&#39;
  }
#向phantomjs中添加cookie
bs.add_cookie(cookie)

8.利用web_driver工具

#1.下载web_driver工具（如chromdriver.exe）及对应的浏览器
#2.将chromdriver.exe放到某个目录，如c:\chromdriver.exe
from selenium import webdriver
driver=webdriver.Chrome(executable_path="C:\chromdriver.exe")
#打开url
driver.get(url)

相關推薦：

Python影片爬蟲實作下載頭條影片

Python爬蟲抓取代理IP並檢驗可用性的實例

Python採集代理ip並判斷是否可用且定時更新的方法

以上是Python實作爬蟲設定代理IP和偽裝成瀏覽器的方法分享的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn