Maison >développement back-end >Tutoriel Python >Python résiste aux anti-crawlers en masquant les données d'en-tête

Python résiste aux anti-crawlers en masquant les données d'en-tête

不言
不言original
2018-05-07 14:18:371740parcourir

Cet article présente principalement comment Python résiste aux anti-crawlers en déguisant les données d'en-tête. Il a une certaine valeur de référence. Maintenant, je le partage avec vous. Les amis dans le besoin peuvent s'y référer

. 0x00 Environnement

Environnement système : win10

Outil d'écriture : JetBrains PyCharm Community Edition 2017.1.2 x64

version python : python-3.6.2

Outil de capture de paquets : Fiddler 4

0x01 Idée de déguisement des données d'en-tête

Soumettre les données au serveur via http, ce qui suit is Capturez les informations d'en-tête non dissimulées de Python via Fiddler

GET /u012870721 HTTP/1.1
Accept-Encoding: identity
Host: blog.csdn.net
User-Agent: <span style="color:#ff0000;">Python-urllib/3.6</span>
Connection: close

Python-urllib/3.6

De toute évidence, nous sommes exposés . Maintenant, je dois demander : que dois-je faire ? Simulez un navigateur et faites semblant d'être un navigateur. Voici les données d'en-tête envoyées par l'accès du navigateur

Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36
Referer: http://write.blog.csdn.net/postlist
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.8

Code 0x02 Implémenter

from urllib import request
html_url = "http://blog.csdn.net/u012870721";
#伪装构造头
header ={
 "Connection": "keep-alive",
 "Upgrade-Insecure-Requests": "1",
 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36",
 "Accept":" text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
 "Accept-Encoding": "gzip,deflate",
 "Accept-Language": "zh-CN,zh;q=0.8"
};

#int main()
#{
req = request.Request(url=html_url, headers=header);

resp = request.urlopen(req);
# return 0;
# }

L'en-tête d'information envoyé après avoir été déguisé

GET /u012870721 HTTP/1.1 
Host: blog.csdn.net 
Connection: close 
Upgrade-Insecure-Requests: 1 
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36 
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 
Accept-Encoding: gzip,deflate 
Accept-Language: zh-CN,zh;q=0.8

Recommandations associées :

Quelques commandes de déploiement pour l'environnement de production Centos Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn