Maison  >  Article  >  développement back-end  >  Quels modules les robots d'exploration Python doivent-ils appeler ?

Quels modules les robots d'exploration Python doivent-ils appeler ?

尚
original
2019-07-11 09:13:043969parcourir

Quels modules les robots d'exploration Python doivent-ils appeler ?

Modules communs pour les robots d'exploration Python :

Recommandations associées : Bibliothèque de robots d'exploration Python et outils associés

Standard Python library ——module urllib

Fonction : Ouvrir l'URL et le protocole http, etc.

Remarque : La bibliothèque urllib et la bibliothèque urilib2 en python 3.x ont été fusionnées dans la bibliothèque urllib. Parmi eux, urllib2.urlopen() devient urllib.request.urlopen(), urllib2.Request() devient urllib.request.Request()

urllib demande de renvoyer la page web

urllib . request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])

urllib.requset.urlioen peut ouvrir les URL HTTP (principales), HTTPS, FTP, de protocole

authentification ca

URL de soumission de données en mode publication Utiliser.

url pour soumettre l'adresse réseau (l'ensemble du front-end nécessite un nom de protocole et le back-end nécessite le port http://192.168.1.1:80)

paramètre de délai d'expiration

objet de retour de fonction Il existe trois méthodes supplémentaires

geturl() renvoie les informations d'url de la réponse

Couramment utilisé avec la redirection d'url info() renvoie les informations de base de la réponse

🎜>

getcode() renvoie la réponse Code d'état

Exemple :

#coding:utf-8
import urllib.request
import time
import platform


#清屏函数(无关紧要 可以不写)
def clear():
    print(u"内容过多 3秒后清屏")
    time.sleep(3)
    OS = platform.system()
    if (OS == u'Windows'):
        os.system('cls')
    else:
        os.system('clear')
#访问函数
def linkbaidu():
    url = 'http://www.baidu.com'
    try:
        response = urllib.request.urlopen(url,timeout=3)
    except urllib.URLError:
        print(u'网络地址错误')
        exit()
    with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp:
        response = urllib.request.urlopen(url,timeout=3)
        fp.write(response.read())
    print(u'获取url信息,response.geturl()\n:%s'%response.getrul())
    print(u'获取返回代码,response.getcode()\n:%s' % response.getcode())
    print(u'获取返回信息,response.info()\n:%s' % response.info())
    print(u"获取的网页信息经存与baidu.txt")


if __name__ =='main':
    linkbaidu()
Bibliothèque standard Python – module de journalisation

Le module de journalisation peut remplacez la fonction de la fonction d'impression et affichez la sortie standard dans le fichier journal Enregistrez-le et utilisez le module de connexion pour remplacer partiellement le module de débogage

re

expression régulière

module sys

Modules liés au système

sys.argv (renvoie une liste contenant toutes les lignes de commande)

sys.exit (quittez le programme)

Framework Scrapy

L'utilisation de urllib et re ensemble est trop arriérée. Maintenant, le framework Scrapy est le courant dominant

Pour plus de détails sur Python. articles techniques, veuillez visiter la colonne Tutoriel Python

pour apprendre !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Article précédent:Que signifie pow en pythonArticle suivant:Que signifie pow en python