Heim >Backend-Entwicklung >Python-Tutorial >Wie Crawler funktionieren
So funktioniert der Crawler
Webcrawler, also Web Spider, ist ein sehr anschaulicher Name. Wenn man das Internet mit einem Spinnennetz vergleicht, dann ist eine Spinne eine Spinne, die im Netz herumkriecht. Webspider suchen über ihre Linkadressen nach Webseiten. Lesen Sie ausgehend von einer bestimmten Seite der Website (normalerweise der Startseite) den Inhalt der Webseite, suchen Sie nach anderen Linkadressen auf der Webseite
und verwenden Sie dann diese Linkadressen, um die nächste Webseite zu finden , und dieser Zyklus wird fortgesetzt, bis alle Seiten dieser Website gecrawlt wurden. Betrachtet man das gesamte Internet als Website, dann können Webspider dieses Prinzip nutzen, um alle Webseiten im Internet zu crawlen. Auf diese Weise ist ein Webcrawler ein Crawler, ein Programm, das Webseiten crawlt. Die grundlegende Funktion eines Webcrawlers besteht darin, Webseiten zu crawlen. Wie können Sie also die gewünschte Seite genau so erhalten, wie Sie es möchten? Beginnen wir mit der URL.
Der Vorgang des Crawlens von Webseiten ist eigentlich derselbe, wie Leser normalerweise den IE-Browser zum Durchsuchen von Webseiten verwenden. Sie geben beispielsweise die Adresse www.baidu.com in die Adresszeile Ihres Browsers ein. Der Vorgang des Öffnens einer Webseite besteht eigentlich darin, dass der Browser als surfender „Client“ eine Anfrage an den Server sendet, die serverseitigen Dateien lokal „abruft“ und sie dann interpretiert und anzeigt. HTML ist eine Auszeichnungssprache, die Tags verwendet, um Inhalte zu markieren und sie zu analysieren und zu unterscheiden. Die Funktion des Browsers besteht darin, den erhaltenen HTML-Code zu analysieren und dann den Originalcode in die Website-Seite umzuwandeln, die wir direkt sehen.
Einfach ausgedrückt ist URL die im Browser eingegebene URL-Zeichenfolge. Bevor Sie URLs verstehen, müssen Sie zunächst das Konzept von URIs verstehen.
Was ist ein URI?
Jede im Web verfügbare Ressource, wie HTML-Dokumente, Bilder, Videoclips, Programme usw., wird durch einen Universal Resource Identifier (URI) lokalisiert.
URI besteht normalerweise aus drei Teilen:
URL ist eine Teilmenge von URI. Es ist die Abkürzung für Uniform Resource Locator, übersetzt als „Uniform Resource Locator“. Laienhaft ausgedrückt ist URL eine Zeichenfolge, die Informationsressourcen im Internet beschreibt und hauptsächlich in verschiedenen WWW-Clientprogrammen und Serverprogrammen verwendet wird. URLs können verwendet werden, um verschiedene Informationsressourcen in einem einheitlichen Format zu beschreiben, einschließlich Dateien, Serveradressen und Verzeichnisse usw. Das allgemeine Format der URL ist (die mit eckigen Klammern [] sind optional):
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
Das Format der URL besteht aus drei Teilen:
3. Einfacher Vergleich von URL und URI
URI ist eine Abstraktion der URL auf niedrigerer Ebene, ein String-Text-Standard. Mit anderen Worten: URIs gehören zur übergeordneten Klasse und URLs gehören zu den Unterklassen von URI. URL ist eine Teilmenge von URI. Die Definition von URI lautet: Uniform Resource Identifier; die Definition von URL lautet: Uniform Resource Locator. Der Unterschied zwischen den beiden besteht darin, dass der URI den Pfad zum Anforderungsserver darstellt und eine solche Ressource definiert
. Die URL beschreibt auch, wie auf die Ressource zugegriffen wird (http://).
Schauen wir uns zwei kleine Beispiele für URLs an.
1. URL-Beispiel für HTTP-Protokoll:Verwenden Sie das Hypertext Transfer Protocol HTTP, um Ressourcen für Hypertext-Informationsdienste bereitzustellen.
Die Hypertextdatei (Dateityp ist .html) ist willkommen.htm im Verzeichnis /channel.
Dies ist ein Computer von People’s Daily of China.
Der Computerdomänenname ist www.rol.cn.Net.
Die Hypertextdatei (Dateityp ist .html) ist talk1.htm im Verzeichnis/talk.
Dies ist die Adresse des Red Chat Room. Von hier aus können Sie den ersten Raum des Red Chat Room betreten.
2. Datei-URL Wenn Sie eine URL zur Darstellung einer Datei verwenden, wird der Servermodus durch die Datei dargestellt, gefolgt von der Host-IP-Adresse, dem Dateizugriffspfad (d. h. dem Verzeichnis), dem Dateinamen und anderen Informationen.
Manchmal können Verzeichnis- und Dateinamen weggelassen werden, aber das Symbol „/“ kann nicht weggelassen werden.
Das Hauptverarbeitungsobjekt des Crawlers ist die URL. Er ruft den erforderlichen Dateiinhalt anhand der URL-Adresse ab und verarbeitet ihn dann weiter.
Daher ist das genaue Verständnis von URLs für das Verständnis von Webcrawlern von entscheidender Bedeutung.
Das obige ist der detaillierte Inhalt vonWie Crawler funktionieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!