Heim >Backend-Entwicklung >Python-Tutorial >[Python] Web Crawler (1): Die Bedeutung des Crawlens von Webseiten und die grundlegende Zusammensetzung von URLs
1. Die Definition von Webcrawler
Webcrawler oder Web Spider ist ein sehr anschaulicher Name.
Vergleicht man das Internet mit einem Spinnennetz, dann ist eine Spinne eine Spinne, die im Netz herumkriecht.
Webspider suchen über ihre Linkadressen nach Webseiten.
Beginnen Sie auf einer bestimmten Seite der Website (normalerweise der Homepage), lesen Sie den Inhalt der Webseite, suchen Sie nach anderen Linkadressen auf der Webseite,
und verwenden Sie dann diese Linkadressen, um die zu finden nächste Webseite, so Die Schleife wird fortgesetzt, bis alle Webseiten dieser Website gecrawlt wurden.
Wenn das gesamte Internet als Website betrachtet wird, können Webspider dieses Prinzip nutzen, um alle Webseiten im Internet zu crawlen.
Auf diese Weise ist ein Webcrawler ein Crawler, ein Programm, das Webseiten crawlt.
Die grundlegende Funktionsweise eines Webcrawlers besteht darin, Webseiten zu crawlen.
Wie können Sie also die gewünschte Seite so erhalten, wie Sie es wünschen?
Beginnen wir mit der URL.
2. Der Prozess des Durchsuchens von Webseiten
Der Prozess des Crawlens von Webseiten ist eigentlich derselbe, wie Leser normalerweise den IE-Browser zum Durchsuchen von Webseiten verwenden .
Sie geben beispielsweise die Adresse www.baidu.com in die Adressleiste des Browsers ein.
Der Vorgang des Öffnens einer Webseite besteht eigentlich darin, dass der Browser als browsender „Client“ eine Anfrage an den Server sendet, die serverseitigen Dateien lokal „abruft“ und dann interpretiert und zeigt sie an.
HTML ist eine Auszeichnungssprache, die Tags verwendet, um Inhalte zu markieren und sie zu analysieren und zu unterscheiden.
Die Funktion des Browsers besteht darin, den erhaltenen HTML-Code zu analysieren und dann den Originalcode in die Website-Seite umzuwandeln, die wir direkt sehen.
3. Konzepte und Beispiele für URI und URL
Einfach ausgedrückt ist die URL auf der Browserseite Zeichenfolge http://www.baidu.com.
Bevor Sie die URL verstehen, müssen Sie zunächst das Konzept der URI verstehen.
Was ist ein URI?
Jede im Web verfügbare Ressource, wie HTML-Dokumente, Bilder, Videoclips, Programme usw., wird durch einen Universal Resource Identifier (URI) lokalisiert.
URI besteht normalerweise aus drei Teilen:
①Der Benennungsmechanismus für den Zugriff auf Ressourcen;
②Der Name des Hosts, auf dem die Ressource gespeichert ist; die Ressource selbst, dargestellt durch einen Pfad.
Zum Beispiel der folgende URI:
http://www.why.com.cn/myhtml/html1223/
Wir können ihn so interpretieren:
① Dies ist eine Ressource, auf die über das HTTP-Protokoll
② zugegriffen werden kann. Sie befindet sich auf dem Host www.webmonkey.com.cn und wird über den Pfad aufgerufen „/html/html40“.
4. Verständnis und Beispiele von URLs
URL ist eine Teilmenge von URI. Es ist die Abkürzung für Uniform Resource Locator, übersetzt als „Uniform Resource Locator“.
Laienhaft ausgedrückt ist eine URL eine Zeichenfolge, die Informationsressourcen im Internet beschreibt. Sie wird hauptsächlich in verschiedenen WWW-Clientprogrammen und Serverprogrammen verwendet.
Mithilfe von URLs können Sie ein einheitliches Format verwenden, um verschiedene Informationsressourcen zu beschreiben, darunter Dateien, Serveradressen und Verzeichnisse usw.
Das allgemeine Format der URL ist (eckige Klammern [] sind optional):
Protokoll :// Hostname[:Port] / Pfad / [; Parameter][?query]#fragment
①Der erste Teil ist das Protokoll (oder die Dienstmethode) ).
②Der zweite Teil ist die IP-Adresse des Hosts, auf dem die Ressource gespeichert ist (manchmal einschließlich der Portnummer).
③Der dritte Teil ist die spezifische Adresse der Hostressource, z. B. Verzeichnis und Dateiname usw.
Der erste und zweite Teil werden durch das Symbol „://“ getrennt, und
Der zweite und dritte Teil werden durch das Symbol „/“ getrennt.
Der erste und zweite Teil sind unverzichtbar, und der dritte Teil kann manchmal weggelassen werden.
5. Einfacher Vergleich von URL und URI
Mit anderen Worten, URI gehört zur übergeordneten Klasse und URL gehört zur Unterklasse von URI. URL ist eine Teilmenge von URI. Die Definition von
URI lautet: Uniform Resource Identifier; die Definition von
URL lautet: Uniform Resource Locator.
Der Unterschied zwischen den beiden besteht darin, dass URI den Pfad zum Anforderungsserver darstellt und eine solche Ressource definiert.
Die URL beschreibt auch, wie man auf diese Ressource zugreift (http://).
Verwenden Sie das Hypertext Transfer Protocol HTTP, um Ressourcen für Hypertext-Informationsdienste bereitzustellen.
Der Computerdomänenname ist www.peopledaily.com.cn.
Die Hypertextdatei (Dateityp ist .html) ist willkommen.htm im Verzeichnis /channel.
Dies ist ein Computer von People’s Daily of China.
Beispiel: http://www.rol.cn.NET/talk/talk1.htm
Der Computerdomänenname ist www.rol.cn.Net.
Die Hypertextdatei (Dateityp ist .html) ist talk1.htm im Verzeichnis/talk.
Dies ist die Adresse des Red Chat Room. Von hier aus können Sie den ersten Raum des Red Chat Room betreten.
2. Datei-URLWenn Sie eine URL zur Darstellung einer Datei verwenden, wird der Servermodus durch die Datei dargestellt, gefolgt von der Host-IP-Adresse, dem Dateizugriffspfad (d. h. dem Verzeichnis), dem Dateinamen und anderen Informationen.
Manchmal können Verzeichnis- und Dateinamen weggelassen werden, aber das Symbol „/“ darf nicht weggelassen werden.
Beispiel: file://ftp.yoyodyne.com/pub/files/foobar.txt
Die obige URL stellt das pub/files/-Verzeichnis dar, das auf dem Host ftp.yoyodyne.com gespeichert ist Eine Datei unter, der Dateiname ist foobar.txt.
Beispiel: file://ftp.yoyodyne.com/pub
stellt das Verzeichnis/pub auf dem Host ftp.yoyodyne.com dar.
Beispiel: file://ftp.yoyodyne.com/
stellt das Stammverzeichnis des Hosts ftp.yoyodyne.com dar.
Das Hauptverarbeitungsobjekt des Crawlers ist die URL. Er ruft den erforderlichen Dateiinhalt anhand der URL-Adresse ab und verarbeitet ihn dann weiter.
Daher ist das genaue Verständnis von URLs für das Verständnis von Webcrawlern von entscheidender Bedeutung.
Das Obige ist der [Python]-Webcrawler (1): Crawlen der Bedeutung von Webseiten und der grundlegenden Zusammensetzung von URLs. Weitere verwandte Inhalte finden Sie auf der chinesischen PHP-Website (www.php.cn). )!