Heim > Artikel > Backend-Entwicklung > Python-Crawler: Crawlen Sie Baidu-Bilder anhand von Schlüsselwörtern
Verwendete Tools: Python2.7
Scrapy-Framework
sublime text3
Eins. Erstellen Sie Python (Windows-Version)
1. Installieren Sie Python2.7 --- Geben Sie dann Python in cmd ein. Wenn die Schnittstelle wie folgt lautet, ist die Installation erfolgreich
2. Integrieren Sie das Scrapy-Framework ---- Geben Sie die Befehlszeile ein: pip install Scrapy
Die erfolgreiche Installationsoberfläche lautet wie folgt:
Fehlgeschlagen Es gibt viele Situationen, zum Beispiel:
Lösung:
Andere Fehler können auf Baidu gesucht werden.
Zwei. Beginnen Sie mit der Programmierung.
Der Python-Code lautet wie folgt:
Codekommentare: Zwei Module urllib, re werden eingeführt. Definieren Sie zwei Funktionen. Die erste Funktion besteht darin, die gesamten Zielwebseitendaten abzurufen. Die zweite Funktion besteht darin, das Zielbild auf der Zielwebseite abzurufen, die Webseite zu durchlaufen und die erfassten Bilder beginnend bei 0 zu sortieren.
Hinweis: Wissenspunkte zum Modul:
Crawling-Bild-Renderings:
Bild Standardmäßig , der Speicherpfad befindet sich im selben Verzeichnis wie die erstellte .py-Datei.
2. Crawlen Sie Baidu-Bilder mit Anti-Crawler-Maßnahmen. Wie Baidu-Bilder usw.
Zum Beispiel die Stichwortsuche „Emoticon-Paket“ https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7% E9% B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111
Die Bilder werden scrollend geladen , und die größten werden als erste 30 Fotos mit Priorität gecrawlt.
Der Code lautet wie folgt:
Codekommentare: Importieren Sie 4 Module, und das Betriebssystemmodul wird verwendet, um den Speicherpfad anzugeben. Die ersten beiden Funktionen sind die gleichen wie oben. Die dritte Funktion verwendet eine if-Anweisung und eine tryException.
Der Crawling-Prozess ist wie folgt:
Crawling-Ergebnisse:
Hinweis: Schreiben Sie Python Code Achten Sie auf die Ausrichtung und mischen Sie keine Tabulatoren und Leerzeichen, da sonst leicht Fehler gemeldet werden können.
Weitere Python-Crawler: Crawlen von Baidu-Bildern anhand von Schlüsselwörtern finden Sie auf der chinesischen PHP-Website für verwandte Artikel!