Heim > Artikel > Backend-Entwicklung > [Python] Web Crawler (11): Zeigen Sie Ihr Schwert! Das Crawler-Framework Scrapy feiert sein Debüt!
In den vorherigen zehn Kapiteln der Crawler-Notizen wurden nacheinander einige einfache Python-Crawler-Kenntnisse aufgezeichnet,
zur Lösung einfacher Tieba-Downloads verwendet, und die Berechnung der Notenpunkte ist natürlich ein Kinderspiel.
Wenn Sie jedoch eine große Menge an Inhalten stapelweise herunterladen möchten, z. B. alle Fragen und Antworten auf Zhihu, scheint dies etwas schwierig zu sein.
Also erschien das Crawler-Framework Scrapy!
Scrapy = Scrach+Python.
Nennen wir es: Scrapy.
Offizielle Website-Adresse von Xiaozhua: Klicken Sie auf mich, klicken Sie auf mich.
Dann lassen Sie uns kurz den Installationsprozess von Scrapy demonstrieren.
Spezifische Vorgehensweisen finden Sie unter: Offizielles Website-Tutorial
Freundliche Erinnerung: Stellen Sie sicher, dass Sie entsprechend der Python-Version herunterladen, sonst werden Sie daran erinnert, dass Python währenddessen nicht gefunden werden kann Installation. Es wird empfohlen, die 32-Bit-Version zu installieren, da einige 64-Bit-Versionen wichtiger Software schwer zu finden sind.
1. Installieren Sie Python (32-Bit empfohlen)
Es wird empfohlen, Python2.7.x zu installieren, 3.x scheint dies nicht zu sein noch unterstützt.
Denken Sie nach der Installation daran, die Umgebung zu konfigurieren und das Python-Verzeichnis und das Skriptverzeichnis unter dem Python-Verzeichnis zum Pfad der Systemumgebungsvariablen hinzuzufügen.
Geben Sie Python in cmd ein. Wenn Versionsinformationen angezeigt werden, ist die Konfiguration abgeschlossen.
2. lxml installieren
lxml ist eine in Python geschriebene Bibliothek, die XML schnell und flexibel verarbeiten kann. Klicken Sie hier, um die entsprechende Python-Version zur Installation auszuwählen.
3. Setuptools installieren
wird verwendet, um die Egg-Datei zu installieren. Klicken Sie hier, um die entsprechende Version von Setuptools für Python2.7 herunterzuladen.
Zope.interface installieren
Sie können die im dritten Schritt heruntergeladenen Setuptools verwenden, um die Egg-Datei zu installieren . Klicken Sie hier zum Herunterladen.
5. Twisted installieren
Twisted ist ein in Python implementiertes ereignisgesteuertes Netzwerk-Engine-Framework.
6. pyOpenSSL installieren
pyOpenSSL ist die OpenSSL-Schnittstelle von Python, klicken Sie hier zum Herunterladen.
7. Installieren Sie win32py
stellt win32api bereit. Klicken Sie hier, um es herunterzuladen
8. Installiere Scrapy
Endlich ist es Zeit, sich zu freuen! Nach der Installation so vieler Widgets ist nun endlich der Protagonist an der Reihe.
Geben Sie easy_install scrapy direkt in cmd ein und drücken Sie die Eingabetaste.
9. Überprüfen Sie die Installation
Öffnen Sie ein CMD-Fenster und führen Sie den Scrapy-Befehl an einer beliebigen Stelle aus. Sie erhalten die folgende Seite, was bedeutet, dass die Umgebungskonfiguration erfolgt erfolgreich.
Das Obige ist [Python] Web Crawler (11): Zeigen Sie Ihr Schwert! Das Crawler-Framework Scrapy feiert sein Debüt! Weitere verwandte Inhalte finden Sie auf der chinesischen PHP-Website (www.php.cn)!