Heim >Backend-Entwicklung >Python-Tutorial >Welche Module müssen Python-Crawler aufrufen?

Welche Module müssen Python-Crawler aufrufen?

尚Original: 2019-07-11 09:13:044229Durchsuche

Gemeinsame Module für Python-Crawler:

Verwandte Empfehlungen: Python-Crawler-Bibliothek und zugehörige Tools

Python-Standard Bibliothek – urllib-Modul

Funktion: URL und HTTP-Protokoll usw. öffnen.

Hinweis: Die urllib-Bibliothek und die urilib2-Bibliothek in Python 3.x wurden in der urllib-Bibliothek zusammengeführt. Unter diesen wird urllib2.urlopen() zu urllib.request.urlopen(), urllib2.Request() wird zu urllib.request.Request()

urllib fordert die Rückgabe der Webseite an

urllib .request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])

urllib.requset.urlioen kann HTTP- (Haupt-), HTTPS-, FTP- und Protokoll-URLs öffnen

CA-Authentifizierung

Datenübermittlungs-URL im Post-Modus verwenden

URL zur Übermittlung der Netzwerkadresse (das gesamte Front-End erfordert einen Protokollnamen und das Back-End erfordert einen Port http://192.168.1.1:80)

Timeout-Timeout-Einstellung

Funktionsrückgabeobjekt Es gibt drei zusätzliche Methoden

geturl() gibt die URL-Informationen der Antwort zurück

Wird häufig mit der URL-Umleitung verwendet. info() gibt die grundlegenden Informationen der Antwort zurück

getcode() gibt den Antwortstatuscode zurück

Beispiel:

#coding:utf-8
import urllib.request
import time
import platform


#清屏函数(无关紧要 可以不写)
def clear():
    print(u"内容过多 3秒后清屏")
    time.sleep(3)
    OS = platform.system()
    if (OS == u&#39;Windows&#39;):
        os.system(&#39;cls&#39;)
    else:
        os.system(&#39;clear&#39;)
#访问函数
def linkbaidu():
    url = &#39;http://www.baidu.com&#39;
    try:
        response = urllib.request.urlopen(url,timeout=3)
    except urllib.URLError:
        print(u&#39;网络地址错误&#39;)
        exit()
    with open(&#39;/home/ifeng/PycharmProjects/pachong/study/baidu.txt&#39;,&#39;w&#39;) as fp:
        response = urllib.request.urlopen(url,timeout=3)
        fp.write(response.read())
    print(u&#39;获取url信息，response.geturl()\n:%s&#39;%response.getrul())
    print(u&#39;获取返回代码，response.getcode()\n:%s&#39; % response.getcode())
    print(u&#39;获取返回信息，response.info()\n:%s&#39; % response.info())
    print(u"获取的网页信息经存与baidu.txt")


if __name__ ==&#39;main&#39;:
    linkbaidu()

Python-Standardbibliothek – Protokollierungsmodul

Das Protokollierungsmodul kann ersetzen die Funktion der Druckfunktion und geben Sie die Standardausgabe in die Protokolldatei aus. Speichern Sie sie und verwenden Sie das Loggin-Modul, um das Debug-

re-Modul

regulären Ausdruck

sys-Modul

Systembezogene Module

sys.argv (gibt eine Liste mit allen Befehlszeilen zurück)

sys.exit ( Beenden Sie das Programm)

Scrapy-Framework

Die gemeinsame Verwendung von urllib und re ist zu rückständig, jetzt ist der Mainstream das Scrapy-Framework

Weitere technische Informationen zu Python Artikel finden Sie in der Spalte

Python-Tutorial, um mehr zu erfahren!

Das obige ist der detaillierte Inhalt vonWelche Module müssen Python-Crawler aufrufen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Python 正则表达式 scrapy print Logging 对象 http https

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Was bedeutet pow in Python?Nächster Artikel：Was bedeutet pow in Python?

In Verbindung stehende Artikel

Mehr sehen