Heim >häufiges Problem >Was bedeutet das Crawlen von Daten?

Was bedeutet das Crawlen von Daten?

青灯夜游Original: 2020-07-24 16:12:4729503Durchsuche

Crawling-Daten bedeutet: Verwendung eines Webcrawler-Programms, um die erforderlichen Inhaltsinformationen auf der Website zu erhalten, wie z. B. Texte, Videos, Bilder und andere Daten. Ein Webcrawler (Webspider) ist ein Programm oder Skript, das nach bestimmten Regeln automatisch Informationen aus dem World Wide Web crawlt.

Was nützt es, sich etwas Wissen über das Crawlen von Daten anzueignen?

Zum Beispiel: Suchmaschinen, die häufig von allen verwendet werden (Google, Sogou);

Wenn Benutzer in der Google-Suchmaschine nach entsprechenden Schlüsselwörtern suchen, werden von Google Schlüsselwörter verwendet werden analysiert und die möglichen Einträge, die für den Benutzer am besten geeignet sind, aus den „eingebundenen“ Webseiten gefunden und dem Benutzer dann präsentiert, wie er diese Webseiten erhält, und natürlich wie Pushen der wertvollsten Webseiten an den Benutzer ist auch Es muss mit dem entsprechenden Algorithmus kombiniert werden, was Kenntnisse im Data Mining erfordert;

Für kleinere Anwendungen zählen wir beispielsweise den Arbeitsaufwand für Testarbeiten. Dazu müssen die Anzahl der Änderungsaufträge pro Woche/Monat, die Anzahl der von Jira erfassten Mängel und der spezifische Inhalt gezählt werden;

Es gibt auch die jüngste Weltmeisterschaft, wenn Sie die Daten jedes Spielers zählen möchten/ Land und speichern Sie die Daten für andere Zwecke;

Es besteht auch die Notwendigkeit, einige Daten auf der Grundlage Ihrer eigenen Interessen und Hobbys zu analysieren (Statistiken zur Beliebtheit eines Buches/Films). Dies erfordert das Crawlen Daten bestehender Webseiten und anschließende Analyse mit den erhaltenen Daten. Spezifische Analyse/statistische Arbeiten usw.

Welche Grundkenntnisse sind erforderlich, um einen einfachen Crawler zu erlernen?

Ich unterteile das Grundwissen in zwei Teile:

1. Frontend-Grundwissen

HTML/JSON, Ajax

Referenzmaterialien:

http://www.w3school.com.cn/h.asp

http://www.w3school.com.cn/ajax/

http: //www.w3school.com.cn/json/

https://www.php.cn/course/list/1.html

https://www.php .cn /course/list/2.html

https://www.html.cn/

2. Python-Programmierkenntnisse

(1) Python-Grundkenntnisse

Grundlegende Grammatikkenntnisse, Wörterbücher, Listen, Funktionen, reguläre Ausdrücke, JSON usw.

Referenzmaterialien:

http://www. runoob.com /python3/python3-tutorial.html

https://www.py.cn/

https://www.php.cn/course/list/30.html

(2) Häufig verwendete Python-Bibliotheken:

Verwendung der urllib-Bibliothek von Python (Ich verwende in diesem Modul mehr URL-Abruffunktionen, hauptsächlich zum Speichern einiger erworbener Ressourcen (Dokumente/Bilder). /mp3 /Video usw.))

Pythons pyMysql-Bibliothek (Datenbankverbindung und -Hinzufügen, Löschen, Ändern und Abfragen)

Python-Modul bs4 (erfordert CSS-Selektor, HTML-Baumstruktur-DomTree-Kenntnisse, usw., gemäß CSS-Selektor/HTML-Tag/Attribut, um den von uns benötigten Inhalt zu finden)

Python-Anfragen (wie der Name schon sagt, wird dieses Modul zum Senden von Anfrageanfragen/POST/Get usw. verwendet ein Antwortobjekt erhalten)

Pythons OS-Modul (dieses Modul bietet eine sehr umfangreiche Methode zum Verarbeiten von Dateien und Verzeichnissen. Die Funktion os.path.join/exists wird häufiger verwendet)

Referenzen: Für diesen Teil können Sie auf das entsprechende Modulschnittstellen-API-Dokument verweisen

Erweiterte Informationen:

Ein Webcrawler ist ein Programm, das Webseiten automatisch extrahiert Seiten aus dem World Wide Web für Suchmaschinen und ist ein wichtiger Bestandteil von Suchmaschinen.

Herkömmliche Crawler beginnen mit der URL einer oder mehrerer Ausgangswebseiten und rufen die URL auf der Ausgangswebseite ab. Während des Crawlens der Webseite extrahieren sie kontinuierlich neue URLs von der aktuellen Seite und fügen sie ein in die Warteschlange gestellt, bis die Systemanforderungen erfüllt sind.

Der Arbeitsablauf des fokussierten Crawlers ist komplizierter. Er muss Links, die nichts mit dem Thema zu tun haben, nach einem bestimmten Webseiten-Analysealgorithmus filtern, nützliche Links behalten und sie in die URL-Warteschlange stellen, die darauf wartet, gecrawlt zu werden. Anschließend wählt es gemäß einer bestimmten Suchstrategie die als nächstes zu crawlende Webseiten-URL aus der Warteschlange aus und wiederholt den obigen Vorgang, bis er stoppt, wenn ein bestimmter Zustand des Systems erreicht ist.

Darüber hinaus werden alle von Crawlern gecrawlten Webseiten vom System gespeichert und einer bestimmten Analyse, Filterung und Indizierung für nachfolgende Abfragen und Abrufe unterzogen. Für gezielte Crawler erfordert dieser Prozess möglicherweise auch die erhaltenen Analyseergebnisse Geben Sie Feedback und Anleitung für zukünftige Crawling-Prozesse.

Im Vergleich zu allgemeinen Webcrawlern müssen fokussierte Crawler auch drei Hauptprobleme lösen:

(1) Beschreibung oder Definition des Crawling-Ziels;

(2) Analyse und Filterung von Webseiten oder Daten;

(3) Suchstrategie für URLs.

Empfohlenes Tutorial: „Python-Tutorial“

Das obige ist der detaillierte Inhalt vonWas bedeutet das Crawlen von Daten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Python php json css ajax 正则表达式 html 接口对象选择器算法数据库 http https 搜索引擎 jira

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Was sind die drei Quellen für Big Data?Nächster Artikel：Was sind die drei Quellen für Big Data?

In Verbindung stehende Artikel

Mehr sehen