Heim >Backend-Entwicklung >Python-Tutorial >Wie Crawler funktionieren

Wie Crawler funktionieren

迷茫
迷茫Original
2017-03-25 16:58:221743Durchsuche
  1. So funktioniert der Crawler

Webcrawler, also Web Spider, ist ein sehr anschaulicher Name. Wenn man das Internet mit einem Spinnennetz vergleicht, dann ist eine Spinne eine Spinne, die im Netz herumkriecht. Webspider suchen über ihre Linkadressen nach Webseiten. Lesen Sie ausgehend von einer bestimmten Seite der Website (normalerweise der Startseite) den Inhalt der Webseite, suchen Sie nach anderen Linkadressen auf der Webseite

und verwenden Sie dann diese Linkadressen, um die nächste Webseite zu finden , und dieser Zyklus wird fortgesetzt, bis alle Seiten dieser Website gecrawlt wurden. Betrachtet man das gesamte Internet als Website, dann können Webspider dieses Prinzip nutzen, um alle Webseiten im Internet zu crawlen. Auf diese Weise ist ein Webcrawler ein Crawler, ein Programm, das Webseiten crawlt. Die grundlegende Funktion eines Webcrawlers besteht darin, Webseiten zu crawlen. Wie können Sie also die gewünschte Seite genau so erhalten, wie Sie es möchten? Beginnen wir mit der URL.

 

Der Vorgang des Crawlens von Webseiten ist eigentlich derselbe, wie Leser normalerweise den IE-Browser zum Durchsuchen von Webseiten verwenden. Sie geben beispielsweise die Adresse www.baidu.com in die Adresszeile Ihres Browsers ein. Der Vorgang des Öffnens einer Webseite besteht eigentlich darin, dass der Browser als surfender „Client“ eine Anfrage an den Server sendet, die serverseitigen Dateien lokal „abruft“ und sie dann interpretiert und anzeigt. HTML ist eine Auszeichnungssprache, die Tags verwendet, um Inhalte zu markieren und sie zu analysieren und zu unterscheiden. Die Funktion des Browsers besteht darin, den erhaltenen HTML-Code zu analysieren und dann den Originalcode in die Website-Seite umzuwandeln, die wir direkt sehen.

Einfach ausgedrückt ist URL die im Browser eingegebene URL-Zeichenfolge. Bevor Sie URLs verstehen, müssen Sie zunächst das Konzept von URIs verstehen.

Was ist ein URI?

Jede im Web verfügbare Ressource, wie HTML-Dokumente, Bilder, Videoclips, Programme usw., wird durch einen Universal Resource Identifier (URI) lokalisiert.

URI besteht normalerweise aus drei Teilen:

    Benennungsmechanismus für den Zugriff auf Ressourcen
  • Hostname zum Speichern von Ressourcen;
  • Der Name der Ressource selbst, dargestellt durch den Pfad.
  • Dies ist eine Ressource, auf die über das HTTP-Protokoll zugegriffen werden kann.
  • befindet sich auf dem Host,
  • Zugriff über Pfad „/html/html40“.
2. Verständnis und Beispiele von URLs

URL ist eine Teilmenge von URI. Es ist die Abkürzung für Uniform Resource Locator, übersetzt als „Uniform Resource Locator“. Laienhaft ausgedrückt ist URL eine Zeichenfolge, die Informationsressourcen im Internet beschreibt und hauptsächlich in verschiedenen WWW-Clientprogrammen und Serverprogrammen verwendet wird. URLs können verwendet werden, um verschiedene Informationsressourcen in einem einheitlichen Format zu beschreiben, einschließlich Dateien, Serveradressen und Verzeichnisse usw. Das allgemeine Format der URL ist (die mit eckigen Klammern [] sind optional):

  protocol :// hostname[:port] / path / [;parameters][?query]#fragment

Das Format der URL besteht aus drei Teilen:

    Der erste Teil ist die Vereinbarung (oder Servicemethode).
  • Der zweite Teil ist die IP-Adresse des Hosts, auf dem die Ressource gespeichert ist (manchmal einschließlich der Portnummer).
  • Der dritte Teil ist die spezifische Adresse der Hostressourcen, wie z. B. Verzeichnisse und Dateinamen.
  • Der erste Teil und der zweite Teil werden durch das Symbol „://“ getrennt, und der zweite Teil und der dritte Teil werden durch das Symbol „/“ getrennt. Der erste und zweite Teil sind unverzichtbar, der dritte Teil kann manchmal weggelassen werden.

 

3. Einfacher Vergleich von URL und URI

URI ist eine Abstraktion der URL auf niedrigerer Ebene, ein String-Text-Standard. Mit anderen Worten: URIs gehören zur übergeordneten Klasse und URLs gehören zu den Unterklassen von URI. URL ist eine Teilmenge von URI. Die Definition von URI lautet: Uniform Resource Identifier; die Definition von URL lautet: Uniform Resource Locator. Der Unterschied zwischen den beiden besteht darin, dass der URI den Pfad zum Anforderungsserver darstellt und eine solche Ressource definiert

. Die URL beschreibt auch, wie auf die Ressource zugegriffen wird (http://).

 

Schauen wir uns zwei kleine Beispiele für URLs an.

1. URL-Beispiel für HTTP-Protokoll:

Verwenden Sie das Hypertext Transfer Protocol HTTP, um Ressourcen für Hypertext-Informationsdienste bereitzustellen.

Die Hypertextdatei (Dateityp ist .html) ist willkommen.htm im Verzeichnis /channel.

Dies ist ein Computer von People’s Daily of China.

Der Computerdomänenname ist www.rol.cn.Net.

Die Hypertextdatei (Dateityp ist .html) ist talk1.htm im Verzeichnis/talk.

Dies ist die Adresse des Red Chat Room. Von hier aus können Sie den ersten Raum des Red Chat Room betreten.

2. Datei-URL

Wenn Sie eine URL zur Darstellung einer Datei verwenden, wird der Servermodus durch die Datei dargestellt, gefolgt von der Host-IP-Adresse, dem Dateizugriffspfad (d. h. dem Verzeichnis), dem Dateinamen und anderen Informationen.

Manchmal können Verzeichnis- und Dateinamen weggelassen werden, aber das Symbol „/“ kann nicht weggelassen werden.

Das Hauptverarbeitungsobjekt des Crawlers ist die URL. Er ruft den erforderlichen Dateiinhalt anhand der URL-Adresse ab und verarbeitet ihn dann weiter.

Daher ist das genaue Verständnis von URLs für das Verständnis von Webcrawlern von entscheidender Bedeutung.

Das obige ist der detaillierte Inhalt vonWie Crawler funktionieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn