Heim >Backend-Entwicklung >Python-Tutorial >Was bedeutet Pythons Crawler?
Python-Crawler ist ein Web-Crawler (Web-Spider, Web-Roboter), der mit einem Python-Programm entwickelt wurde. Es handelt sich um ein Programm oder Skript, das World Wide Web-Informationen automatisch nach bestimmten Regeln crawlt. Andere, weniger häufig verwendete Namen sind Ameisen, Autoindexer, Emulatoren oder Würmer. Laienhaft ausgedrückt geht es tatsächlich darum, die gewünschten Daten auf der Webseite über ein Programm abzurufen, also die Daten automatisch zu erfassen.
Ein Webcrawler (englisch: Webcrawler), auch Webspider genannt, ist ein Webroboter, der zum automatischen Durchsuchen des World Wide Web verwendet wird. Sein Zweck besteht im Allgemeinen darin, Web-Indizes zu erstellen.
Websuchmaschinen und andere Websites verwenden Crawler-Software, um den Inhalt ihrer eigenen Website oder ihre Indizes anderer Websites zu aktualisieren. Webcrawler können die von ihnen besuchten Seiten speichern, sodass Suchmaschinen später Indizes für die Suche durch Benutzer erstellen können.
Der Prozess des Crawlers, der auf die Website zugreift, verbraucht die Ressourcen des Zielsystems. Viele Netzwerksysteme lassen Crawler standardmäßig nicht zu. Daher muss der Crawler beim Besuch einer großen Anzahl von Seiten Planung, Laden und „Höflichkeit“ berücksichtigen. Öffentliche Websites, auf die Crawler nicht zugreifen möchten und die dem Crawler-Eigentümer bekannt sind, können Methoden wie robots.txt-Dateien verwenden, um den Zugriff zu verhindern. Diese Datei kann den Robot auffordern, nur einen Teil der Site zu indizieren oder sie überhaupt nicht zu verarbeiten.
Es gibt so viele Seiten im Internet, dass selbst die größten Crawler-Systeme sie nicht vollständig indizieren können. Daher fanden Suchmaschinen in den Anfängen des World Wide Web, vor dem Jahr 2000 n. Chr., oft nur wenige relevante Ergebnisse. Heutige Suchmaschinen haben sich in dieser Hinsicht stark verbessert und können sofort qualitativ hochwertige Ergebnisse liefern.
Der Crawler kann auch Hyperlinks und HTML-Codes für Web Scraping überprüfen.
Python-Crawler
Python-Crawler-Architektur
Die Python-Crawler-Architektur besteht hauptsächlich aus fünf Teilen, nämlich Scheduler und URL-Managern , Web-Downloader, Web-Parser, Anwendungen (gecrawlte wertvolle Daten).
Scheduler: Entspricht der CPU eines Computers und ist hauptsächlich für die Planung der Koordination zwischen URL-Manager, Downloader und Parser verantwortlich.
URL-Manager: Enthält die zu crawlende URL-Adresse und die gecrawlte URL-Adresse, um wiederholtes Crawlen von URLs und Loop-Crawling von URLs zu verhindern. Es gibt drei Hauptmethoden, um den URL-Manager über den Speicher zu implementieren und Datenbank, Cache-Datenbank zu erreichen.
Webseiten-Downloader: Laden Sie eine Webseite herunter, indem Sie eine URL-Adresse übergeben und die Webseite in eine Zeichenfolge konvertieren. Der Webseiten-Downloader verfügt über urllib2 (offizielles Python-Basismodul), das Anmeldung, Proxy und Cookies umfasst , Anfragen( Paket von Drittanbietern)
Webseiten-Parser: Durch das Parsen einer Webseitenzeichenfolge können nützliche Informationen gemäß unseren Anforderungen extrahiert oder gemäß der Parsing-Methode des DOM-Baums analysiert werden. Webseiten-Parser umfassen reguläre Ausdrücke (konvertieren Webseiten intuitiv in Zeichenfolgen, um wertvolle Informationen durch Fuzzy-Matching zu extrahieren. Wenn das Dokument komplex ist, ist es sehr schwierig, Daten mit dieser Methode zu extrahieren), HTML-Parser (der mit Python geliefert wird) und Beautifulsoup (ein Plug-in eines Drittanbieters, Sie können zum Parsen den html.parser verwenden, der mit Python geliefert wird, oder Sie können zum Parsen lxml verwenden, das leistungsfähiger ist als die anderen), lxml (ein Plug-in eines Drittanbieters). , kann XML und HTML analysieren), html.parser, beautifulsoup und lxml werden alle in Form eines DOM-Baums analysiert.
Anwendung: Es handelt sich um eine Anwendung, die aus nützlichen Daten besteht, die aus Webseiten extrahiert werden.
Was kann ein Crawler?
Sie können einen Crawler zum Crawlen von Bildern, Videos und anderen Daten verwenden, die Sie crawlen möchten. Solange Sie über den Browser auf die Daten zugreifen können, können Sie diese über den Crawler abrufen.
Was ist die Natur eines Crawlers?
Simulieren Sie einen Browser, um eine Webseite zu öffnen und den gewünschten Teil der Daten auf der Webseite abzurufen
Der Prozess des Browsers, der die Webseite öffnet:
Wann Sie befinden sich im Browser. Nach Eingabe der Adresse wird der Serverhost über den DNS-Server gefunden und eine Anfrage an den Server gesendet. Der Server analysiert die Ergebnisse und sendet sie an den Browser des Benutzers, einschließlich HTML, JS, CSS und anderen Dateiinhalten . Der Browser analysiert es und präsentiert es dem Benutzer schließlich im Browser. Die vom Benutzer angezeigten Ergebnisse bestehen also aus HTML-Codes die HTML-Codes, um die gewünschten Ressourcen zu erhalten.
Verwandte Empfehlungen: „
Python-TutorialDas obige ist der detaillierte Inhalt vonWas bedeutet Pythons Crawler?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!