Maison >développement back-end >Tutoriel Python >Explication détaillée d'exemples d'utilisation de Python pour écrire des robots d'exploration à l'aide de la bibliothèque Requests

Explication détaillée d'exemples d'utilisation de Python pour écrire des robots d'exploration à l'aide de la bibliothèque Requests

零下一度original: 2017-06-30 18:00:562756parcourir

Demande Get de base :

#-*- coding:utf-8 -*-import requests
url = &#39;www.baidu.com&#39;r = requests.get(url)print r.text

Demande Get avec paramètres :

#-*- coding:utf-8 -*-import requests
url = &#39;http://www.baidu.com&#39;payload = {&#39;key1&#39;: &#39;value1&#39;, &#39;key2&#39;: &#39;value2&#39;}
r = requests.get(url, params=payload)print r.text

Requête POST pour simuler la connexion et certaines méthodes de retour d'objets :

#-*- coding:utf-8 -*-import requests
url1 = &#39;www.exanple.com/login&#39;#登陆地址url2 = "www.example.com/main"#需要登陆才能访问的地址data={"user":"user","password":"pass"}
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",            "Accept-Encoding":"gzip",            "Accept-Language":"zh-CN,zh;q=0.8",            "Referer":"www.example.com/",            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }
res1 = requests.post(url1, data=data, headers=headers)
res2 = requests.get(url2, cookies=res1.cookies, headers=headers)print res2.conten

t#Obtenir le contenu de la réponse binaire print res2.raw#Obtenir le contenu de la réponse d'origine, stream=True est requis print res2.raw.read(50)print type(res2.text)#Renvoyer le contenu décodé en unicode print res2. urlprint res2.history# Redirection de suivi print res2.cookiesprint res2.cookies['example_cookie_name']print res2.headersprint res2.headers['Content-Type']print res2.headers.get('content-type')print res2.json # Parler du contenu de retour Encodé comme jsonprint res2.encoding#Return content encoding print res2.status_code#Return http status code print res2.raise_for_status()#Return error status code

Utiliser l'écriture d'objet Session() méthode (Requêtes Préparées) :

#-*- coding:utf-8 -*-import requests
s = requests.Session()
url1 = &#39;www.exanple.com/login&#39;#登陆地址url2 = "www.example.com/main"#需要登陆才能访问的地址data={"user":"user","password":"pass"}
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",            "Accept-Encoding":"gzip",            "Accept-Language":"zh-CN,zh;q=0.8",            "Referer":"http://www.example.com/",            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }
prepped1 = requests.Request(&#39;POST&#39;, url1,
    data=data,
    headers=headers
).prepare()
s.send(prepped1)&#39;&#39;&#39;
也可以这样写
res = requests.Request(&#39;POST&#39;, url1,
data=data,
headers=headers
)
prepared = s.prepare_request(res)
# do something with prepped.body
# do something with prepped.headers
s.send(prepared)
&#39;&#39;&#39;prepare2 = requests.Request(&#39;POST&#39;, url2,
    headers=headers
).prepare()
res2 = s.send(prepare2)print res2.content

Autre façon d'écrire :

#-*- coding:utf-8 -*-import requestss = requests.Session()url1 = &#39;www.exanple.com/login&#39;#登陆地址url2 = "www.example.com/main"#需要登陆才能访问的页面地址data={"user":"user","password":"pass"}headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",            "Accept-Encoding":"gzip",            "Accept-Language":"zh-CN,zh;q=0.8",            "Referer":"http://www.example.com/",            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"            }res1 = s.post(url1, data=data)res2 = s.post(url2)print(resp2.content)
SessionApi
其他的一些请求方式
>>> r = requests.put("http://httpbin.org/put")>>> r = requests.delete("http://httpbin.org/delete")>>> r = requests.head("http://httpbin.org/get")>>> r = requests.options("http://httpbin.org/get")

Problèmes rencontrés :

Lors de l'exécution sous cmd, une petite erreur a été rencontrée :

UnicodeEncodeError : le codec 'gbk' ne peut pas encoder le caractère u'xbb' en position 23460 : séquence multi-octets illégale

Analyse :
1. Est-ce un codage ou un décodage Unicode

UnicodeEncodeError

De toute évidence, il y a eu une erreur lors de l'encodage

2 Quel encodage a été utilisé

Le codec 'gbk' ne peut pas encoder le caractère

Erreur lors de l'encodage GBK

Solution :

Déterminez la chaîne actuelle, telle que

Il a été déterminé que la chaîne de HTML est utf-8, vous pouvez l'encoder directement via utf-8.

#-*- coding:utf-8 -*-import requests
url = &#39;www.baidu.com&#39;r = requests.get(url)print r.encoding
>utf-8

imprimer r.text.encode('utf-8')

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Développement Python (3) : types de données de base PythonArticle suivant：Développement Python (3) : types de données de base Python

Articles Liés

Voir plus