Rumah >pembangunan bahagian belakang >Tutorial Python >Python利用Requests库写爬虫的实例详解

Python利用Requests库写爬虫的实例详解

零下一度asal: 2017-06-30 18:00:562795semak imbas

基本Get请求：

#-*- coding:utf-8 -*-import requests
url = &#39;www.baidu.com&#39;r = requests.get(url)print r.text

带参数Get请求：

#-*- coding:utf-8 -*-import requests
url = &#39;http://www.baidu.com&#39;payload = {&#39;key1&#39;: &#39;value1&#39;, &#39;key2&#39;: &#39;value2&#39;}
r = requests.get(url, params=payload)print r.text

POST请求模拟登陆及一些返回对象的方法：

#-*- coding:utf-8 -*-import requests
url1 = &#39;www.exanple.com/login&#39;#登陆地址url2 = "www.example.com/main"#需要登陆才能访问的地址data={"user":"user","password":"pass"}
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",            "Accept-Encoding":"gzip",            "Accept-Language":"zh-CN,zh;q=0.8",            "Referer":"www.example.com/",            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }
res1 = requests.post(url1, data=data, headers=headers)
res2 = requests.get(url2, cookies=res1.cookies, headers=headers)print res2.conten

t#获得二进制响应内容print res2.raw#获得原始响应内容,需要stream=Trueprint res2.raw.read(50)print type(res2.text)#返回解码成unicode的内容print res2.urlprint res2.history#追踪重定向print res2.cookiesprint res2.cookies['example_cookie_name']print res2.headersprint res2.headers['Content-Type']print res2.headers.get('content-type')print res2.json#讲返回内容编码为jsonprint res2.encoding#返回内容编码print res2.status_code#返回http状态码print res2.raise_for_status()#返回错误状态码

使用Session()对象的写法（Prepared Requests）:

#-*- coding:utf-8 -*-import requests
s = requests.Session()
url1 = &#39;www.exanple.com/login&#39;#登陆地址url2 = "www.example.com/main"#需要登陆才能访问的地址data={"user":"user","password":"pass"}
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",            "Accept-Encoding":"gzip",            "Accept-Language":"zh-CN,zh;q=0.8",            "Referer":"http://www.example.com/",            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }
prepped1 = requests.Request(&#39;POST&#39;, url1,
    data=data,
    headers=headers
).prepare()
s.send(prepped1)&#39;&#39;&#39;
也可以这样写
res = requests.Request(&#39;POST&#39;, url1,
data=data,
headers=headers
)
prepared = s.prepare_request(res)
# do something with prepped.body
# do something with prepped.headers
s.send(prepared)
&#39;&#39;&#39;prepare2 = requests.Request(&#39;POST&#39;, url2,
    headers=headers
).prepare()
res2 = s.send(prepare2)print res2.content

另一种写法 :

#-*- coding:utf-8 -*-import requestss = requests.Session()url1 = &#39;www.exanple.com/login&#39;#登陆地址url2 = "www.example.com/main"#需要登陆才能访问的页面地址data={"user":"user","password":"pass"}headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",            "Accept-Encoding":"gzip",            "Accept-Language":"zh-CN,zh;q=0.8",            "Referer":"http://www.example.com/",            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"            }res1 = s.post(url1, data=data)res2 = s.post(url2)print(resp2.content)
SessionApi
其他的一些请求方式
>>> r = requests.put("http://httpbin.org/put")>>> r = requests.delete("http://httpbin.org/delete")>>> r = requests.head("http://httpbin.org/get")>>> r = requests.options("http://httpbin.org/get")

遇到的问题:

在cmd下执行，遇到个小错误:

UnicodeEncodeError:'gbk' codec can't encode character u'\xbb' in position 23460: illegal multibyte sequence

分析:
1、Unicode是编码还是解码

UnicodeEncodeError

很明显是在编码的时候出现了错误

2、用了什么编码

'gbk' codec can't encode character

使用GBK编码出错

解决办法：

确定当前字符串，比如

#-*- coding:utf-8 -*-import requests
url = &#39;www.baidu.com&#39;r = requests.get(url)print r.encoding
>utf-8

已经确定html的字符串是utf-8的，则可以直接去通过utf-8去编码。

print r.text.encode('utf-8')

Atas ialah kandungan terperinci Python利用Requests库写爬虫的实例详解. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Python开发（3）：Python基本数据类型Artikel seterusnya：python学习日记（1）

Artikel berkaitan

Lihat lagi