Maison >développement back-end >Tutoriel Python >Quels modules les robots d'exploration Python doivent-ils appeler ?
Modules communs pour les robots d'exploration Python :
Recommandations associées : Bibliothèque de robots d'exploration Python et outils associés
Standard Python library ——module urllib
Fonction : Ouvrir l'URL et le protocole http, etc.
Remarque : La bibliothèque urllib et la bibliothèque urilib2 en python 3.x ont été fusionnées dans la bibliothèque urllib. Parmi eux, urllib2.urlopen() devient urllib.request.urlopen(), urllib2.Request() devient urllib.request.Request()
urllib demande de renvoyer la page web
urllib . request.urlopen
urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])
urllib.requset.urlioen peut ouvrir les URL HTTP (principales), HTTPS, FTP, de protocole
authentification ca
URL de soumission de données en mode publication Utiliser.
url pour soumettre l'adresse réseau (l'ensemble du front-end nécessite un nom de protocole et le back-end nécessite le port http://192.168.1.1:80)
paramètre de délai d'expiration
objet de retour de fonction Il existe trois méthodes supplémentaires
geturl() renvoie les informations d'url de la réponse
Couramment utilisé avec la redirection d'url info() renvoie les informations de base de la réponse
🎜>
getcode() renvoie la réponse Code d'état Exemple :#coding:utf-8 import urllib.request import time import platform #清屏函数(无关紧要 可以不写) def clear(): print(u"内容过多 3秒后清屏") time.sleep(3) OS = platform.system() if (OS == u'Windows'): os.system('cls') else: os.system('clear') #访问函数 def linkbaidu(): url = 'http://www.baidu.com' try: response = urllib.request.urlopen(url,timeout=3) except urllib.URLError: print(u'网络地址错误') exit() with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp: response = urllib.request.urlopen(url,timeout=3) fp.write(response.read()) print(u'获取url信息,response.geturl()\n:%s'%response.getrul()) print(u'获取返回代码,response.getcode()\n:%s' % response.getcode()) print(u'获取返回信息,response.info()\n:%s' % response.info()) print(u"获取的网页信息经存与baidu.txt") if __name__ =='main': linkbaidu()Bibliothèque standard Python – module de journalisation Le module de journalisation peut remplacez la fonction de la fonction d'impression et affichez la sortie standard dans le fichier journal Enregistrez-le et utilisez le module de connexion pour remplacer partiellement le module de débogage
re
expression régulièremodule sys
Modules liés au systèmesys.argv (renvoie une liste contenant toutes les lignes de commande)sys.exit (quittez le programme)
Framework Scrapy
L'utilisation de urllib et re ensemble est trop arriérée. Maintenant, le framework Scrapy est le courant dominantPour plus de détails sur Python. articles techniques, veuillez visiter la colonne Tutoriel Python
pour apprendre !Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!