Heim  >  Artikel  >  Backend-Entwicklung  >  [Python] Web Crawler (11): Zeigen Sie Ihr Schwert! Das Crawler-Framework Scrapy feiert sein Debüt!

[Python] Web Crawler (11): Zeigen Sie Ihr Schwert! Das Crawler-Framework Scrapy feiert sein Debüt!

黄舟
黄舟Original
2017-01-21 14:48:031319Durchsuche

In den vorherigen zehn Kapiteln der Crawler-Notizen wurden nacheinander einige einfache Python-Crawler-Kenntnisse aufgezeichnet,

zur Lösung einfacher Tieba-Downloads verwendet, und die Berechnung der Notenpunkte ist natürlich ein Kinderspiel.

Wenn Sie jedoch eine große Menge an Inhalten stapelweise herunterladen möchten, z. B. alle Fragen und Antworten auf Zhihu, scheint dies etwas schwierig zu sein.

Also erschien das Crawler-Framework Scrapy!

Scrapy = Scrach+Python.

Nennen wir es: Scrapy.


Offizielle Website-Adresse von Xiaozhua: Klicken Sie auf mich, klicken Sie auf mich.


Dann lassen Sie uns kurz den Installationsprozess von Scrapy demonstrieren.

Spezifische Vorgehensweisen finden Sie unter: Offizielles Website-Tutorial

Freundliche Erinnerung: Stellen Sie sicher, dass Sie entsprechend der Python-Version herunterladen, sonst werden Sie daran erinnert, dass Python währenddessen nicht gefunden werden kann Installation. Es wird empfohlen, die 32-Bit-Version zu installieren, da einige 64-Bit-Versionen wichtiger Software schwer zu finden sind.


1. Installieren Sie Python (32-Bit empfohlen)

Es wird empfohlen, Python2.7.x zu installieren, 3.x scheint dies nicht zu sein noch unterstützt.

Denken Sie nach der Installation daran, die Umgebung zu konfigurieren und das Python-Verzeichnis und das Skriptverzeichnis unter dem Python-Verzeichnis zum Pfad der Systemumgebungsvariablen hinzuzufügen.

Geben Sie Python in cmd ein. Wenn Versionsinformationen angezeigt werden, ist die Konfiguration abgeschlossen.


2. lxml installieren

lxml ist eine in Python geschriebene Bibliothek, die XML schnell und flexibel verarbeiten kann. Klicken Sie hier, um die entsprechende Python-Version zur Installation auszuwählen.


3. Setuptools installieren

wird verwendet, um die Egg-Datei zu installieren. Klicken Sie hier, um die entsprechende Version von Setuptools für Python2.7 herunterzuladen.


Zope.interface installieren

Sie können die im dritten Schritt heruntergeladenen Setuptools verwenden, um die Egg-Datei zu installieren . Klicken Sie hier zum Herunterladen.


5. Twisted installieren

Twisted ist ein in Python implementiertes ereignisgesteuertes Netzwerk-Engine-Framework.


6. pyOpenSSL installieren

pyOpenSSL ist die OpenSSL-Schnittstelle von Python, klicken Sie hier zum Herunterladen.


7. Installieren Sie win32py

stellt win32api bereit. Klicken Sie hier, um es herunterzuladen


8. Installiere Scrapy

Endlich ist es Zeit, sich zu freuen! Nach der Installation so vieler Widgets ist nun endlich der Protagonist an der Reihe.

Geben Sie easy_install scrapy direkt in cmd ein und drücken Sie die Eingabetaste.


9. Überprüfen Sie die Installation

Öffnen Sie ein CMD-Fenster und führen Sie den Scrapy-Befehl an einer beliebigen Stelle aus. Sie erhalten die folgende Seite, was bedeutet, dass die Umgebungskonfiguration erfolgt erfolgreich.

[Python] Web Crawler (11): Zeigen Sie Ihr Schwert! Das Crawler-Framework Scrapy feiert sein Debüt!

Das Obige ist [Python] Web Crawler (11): Zeigen Sie Ihr Schwert! Das Crawler-Framework Scrapy feiert sein Debüt! Weitere verwandte Inhalte finden Sie auf der chinesischen PHP-Website (www.php.cn)!


Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn