Heim > Artikel > Backend-Entwicklung > Was bedeutet Crawler-Python?
Was bedeutet Crawler-Python?
Crawler, auch Webcrawler genannt, bezieht sich hauptsächlich auf Skripte und Programme, die Daten aus dem Internet sammeln und die Grundlage für Datenanalyse und Data Mining bilden.
Der sogenannte Crawler bezieht sich auf das Erhalten nützlicher Dateninformationen für uns von einer bestimmten URL (Website), das Erreichen einer großen Datenerfassung durch Code und das Erhalten relevanter Regeln durch spätere Datensortierung, Berechnung usw. sowie Branchentrends und andere Informationen.
Die Python-Crawler-Architektur besteht hauptsächlich aus fünf Teilen, nämlich Scheduler, URL-Manager, Webseiten-Downloader, Webseiten-Parser und Anwendung (gecrawlte wertvolle Daten).
Scheduler:
entspricht der CPU eines Computers und ist hauptsächlich für die Planung der Koordination zwischen URL-Manager, Downloader und Parser verantwortlich.
URL-Manager:
Enthält zu crawlende URL-Adressen und URL-Adressen, die gecrawlt wurden, verhindert wiederholtes Crawlen von URLs und Loop-Crawling von URLs und realisiert URL-The Der Manager wird hauptsächlich auf drei Arten implementiert: über Speicher, Datenbank und Cache-Datenbank.
Webseiten-Downloader:
Laden Sie eine Webseite herunter, indem Sie eine URL-Adresse übergeben und die Webseite in eine Zeichenfolge konvertieren. Der Webseiten-Downloader verfügt über urllib2 (Python-Beamter). Basismodul) Einschließlich der Notwendigkeit von Anmeldung, Proxy und Cookies, Anfragen (Drittanbieterpaket)
Webseiten-Parser:
Um eine Webseitenzeichenfolge zu analysieren, Sie können unseren Anforderungen folgen, um unsere nützlichen Informationen zu extrahieren. Sie können sie auch gemäß der Parsing-Methode des DOM-Baums analysieren. Webseiten-Parser umfassen reguläre Ausdrücke (wandeln Webseiten intuitiv in Zeichenfolgen um, um wertvolle Informationen durch Fuzzy-Matching zu extrahieren. Wenn das Dokument komplex ist, ist es sehr schwierig, Daten mit dieser Methode zu extrahieren), HTML-Parser (der mit Python geliefert wird) und Beautifulsoup (ein Plug-in eines Drittanbieters, Sie können zum Parsen den mit Python gelieferten html.parser verwenden, oder Sie können zum Parsen lxml verwenden, das leistungsfähiger ist als die anderen), lxml (ein Plug-in eines Drittanbieters). , kann XML und HTML analysieren), html.parser, beautifulsoup und lxml werden alle in Form eines DOM-Baums analysiert.
Anwendung:
ist eine Anwendung, die aus nützlichen Daten besteht, die aus Webseiten extrahiert wurden.
Verwandte Empfehlungen: „Python-Tutorial“
Das obige ist der detaillierte Inhalt vonWas bedeutet Crawler-Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!