Heim > Artikel > Backend-Entwicklung > Welche Module müssen Python-Crawler aufrufen?
Gemeinsame Module für Python-Crawler:
Verwandte Empfehlungen: Python-Crawler-Bibliothek und zugehörige Tools
Python-Standard Bibliothek – urllib-Modul
Funktion: URL und HTTP-Protokoll usw. öffnen.
Hinweis: Die urllib-Bibliothek und die urilib2-Bibliothek in Python 3.x wurden in der urllib-Bibliothek zusammengeführt. Unter diesen wird urllib2.urlopen() zu urllib.request.urlopen(), urllib2.Request() wird zu urllib.request.Request()
urllib fordert die Rückgabe der Webseite an
urllib .request.urlopen
urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])
urllib.requset.urlioen kann HTTP- (Haupt-), HTTPS-, FTP- und Protokoll-URLs öffnen
CA-Authentifizierung
Datenübermittlungs-URL im Post-Modus verwenden
URL zur Übermittlung der Netzwerkadresse (das gesamte Front-End erfordert einen Protokollnamen und das Back-End erfordert einen Port http://192.168.1.1:80)
Timeout-Timeout-Einstellung
Funktionsrückgabeobjekt Es gibt drei zusätzliche Methoden
geturl() gibt die URL-Informationen der Antwort zurück
Wird häufig mit der URL-Umleitung verwendet. info() gibt die grundlegenden Informationen der Antwort zurück
getcode() gibt den Antwortstatuscode zurück
Beispiel:
#coding:utf-8 import urllib.request import time import platform #清屏函数(无关紧要 可以不写) def clear(): print(u"内容过多 3秒后清屏") time.sleep(3) OS = platform.system() if (OS == u'Windows'): os.system('cls') else: os.system('clear') #访问函数 def linkbaidu(): url = 'http://www.baidu.com' try: response = urllib.request.urlopen(url,timeout=3) except urllib.URLError: print(u'网络地址错误') exit() with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp: response = urllib.request.urlopen(url,timeout=3) fp.write(response.read()) print(u'获取url信息,response.geturl()\n:%s'%response.getrul()) print(u'获取返回代码,response.getcode()\n:%s' % response.getcode()) print(u'获取返回信息,response.info()\n:%s' % response.info()) print(u"获取的网页信息经存与baidu.txt") if __name__ =='main': linkbaidu()
Python-Standardbibliothek – Protokollierungsmodul
Das Protokollierungsmodul kann ersetzen die Funktion der Druckfunktion und geben Sie die Standardausgabe in die Protokolldatei aus. Speichern Sie sie und verwenden Sie das Loggin-Modul, um das Debug-
re-Modul
regulären Ausdruck
sys-Modul
Systembezogene Modulesys.argv (gibt eine Liste mit allen Befehlszeilen zurück)sys.exit ( Beenden Sie das Programm)Scrapy-Framework
Die gemeinsame Verwendung von urllib und re ist zu rückständig, jetzt ist der Mainstream das Scrapy-FrameworkWeitere technische Informationen zu Python Artikel finden Sie in der SpaltePython-Tutorial, um mehr zu erfahren!
Das obige ist der detaillierte Inhalt vonWelche Module müssen Python-Crawler aufrufen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!