Heim >Backend-Entwicklung >Python-Tutorial >Was ist ein Crawler und der grundlegende Prozess eines Crawlers?

Was ist ein Crawler und der grundlegende Prozess eines Crawlers?

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼nach vorne
2019-06-04 17:58:275216Durchsuche

Mit der rasanten Entwicklung des Internets überschwemmen immer mehr Daten dieses Zeitalter. Das Erfassen und Verarbeiten von Daten ist zu einem wesentlichen Bestandteil unseres Lebens geworden, und Crawler sind entstanden, wenn die Zeit es erfordert.

Viele Sprachen können zum Crawlen verwendet werden, aber Crawler, die auf Python basieren, sind prägnanter und bequemer. Crawler sind auch zu einem wesentlichen Bestandteil der Python-Sprache geworden.

In diesem Artikel wird erklärt, was ein Crawler ist, und eine Einführung in den grundlegenden Prozess eines Crawlers gegeben. In der nächsten Ausgabe wird der grundlegende Prozess eines Crawlers näher erläutert: Anfrage und Antwort.

Was ist ein Crawler und der grundlegende Prozess eines Crawlers?

Was ist ein Crawler?

Crawler ist ein Webcrawler, auf Englisch heißt es Web Spider. Übersetzt bedeutet es eine Spinne, die im Internet herumkriecht. Wenn man das Internet als ein großes Netz betrachtet, dann ist ein Crawler eine Spinne, die im großen Netz herumkriecht. Wenn sie auf die Nahrung trifft, die sie haben möchte.

Wir geben eine URL in den Browser ein, drücken die Eingabetaste und sehen die Seiteninformationen der Website. Dabei fordert der Browser den Server der Website an und ruft Netzwerkressourcen ab. Dann entspricht der Crawler der Simulation des Browsers, um eine Anfrage zu senden und den HTML-Code abzurufen. HTML-Code enthält normalerweise Tags und Textinformationen, aus denen wir die gewünschten Informationen extrahieren.

Normalerweise starten Crawler von einer bestimmten Seite einer Website, crawlen den Inhalt dieser Seite, finden andere Linkadressen auf der Webseite, crawlen dann von dieser Adresse zur nächsten Seite und crawlen auf diese Weise weiter . Gehen Sie nach unten und holen Sie sich stapelweise Informationen. Dann können wir sehen, dass ein Webcrawler ein Programm ist, das Webseiten kontinuierlich crawlt und Informationen erfasst.


Grundlegender Prozess des Crawlers:

1. Initiieren Sie eine Anfrage:

Initiieren Sie die Zielseite über die HTTP-Bibliotheksanforderung, das heißt, eine Anforderung senden, die zusätzliche Header und andere Informationen enthalten kann, und dann auf die Antwort des Servers warten. Der Vorgang dieser Anfrage ähnelt dem Öffnen des Browsers, der Eingabe der URL: www.baidu.com in die Adressleiste des Browsers und dem anschließenden Klicken auf die Eingabetaste. Dieser Vorgang entspricht tatsächlich dem Browser, der als Browsing-Client fungiert und eine Anfrage an den Server sendet.

2. Erhalten Sie den Antwortinhalt:

Wenn der Server normal antworten kann, erhalten wir eine Antwort. Der Inhalt der Antwort kann HTML sein. JSON-String, Binärdaten (Bilder, Videos usw.) und andere Typen. Bei diesem Vorgang empfängt der Server die Anfrage des Clients und analysiert die an den Browser gesendete Webseiten-HTML-Datei.

3. Analysieren Sie den Inhalt:

Der erhaltene Inhalt kann HTML sein, der mithilfe regulärer Ausdrücke und Webseiten-Parsing-Bibliotheken analysiert werden kann. Es kann sich auch um Json handeln, das direkt in die Json-Objektanalyse konvertiert werden kann. Dabei kann es sich um binäre Daten handeln, die gespeichert oder weiterverarbeitet werden können. Dieser Schritt entspricht dem Browser, der die serverseitige Datei lokal abruft und sie dann interpretiert und anzeigt.

4. Daten speichern:

Die Speichermethode kann darin bestehen, die Daten als Text, in einer Datenbank oder als bestimmte JPG-, MP4- und andere Formatdateien zu speichern. Dies entspricht dem Herunterladen von Bildern oder Videos auf der Webseite, wenn wir im Internet surfen.

Das obige ist der detaillierte Inhalt vonWas ist ein Crawler und der grundlegende Prozess eines Crawlers?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:csdn.net. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen