Heim > Artikel > Backend-Entwicklung > So erstellen Sie einen Echtzeit-Webcrawler mit Elasticsearch und PHP
So erstellen Sie einen Echtzeit-Webcrawler mit Elasticsearch und PHP
Einführung:
Ein Webcrawler ist ein automatisiertes Programm, das Informationen aus dem Internet sammelt und diese organisiert und analysiert. Elasticsearch ist eine Open-Source-Suchmaschine, die schnelle Such- und Analysefunktionen in Echtzeit bietet. PHP ist eine beliebte serverseitige Skriptsprache. Durch die Kombination von Elasticsearch und PHP können wir einen Echtzeit-Webcrawler erstellen, der Daten von Websites sammelt und sie zur Suche und Analyse in Elasticsearch speichert.
Schritt 1: Elasticsearch installieren und konfigurieren
Zuerst müssen wir Elasticsearch auf dem Server installieren und konfigurieren. Sie können die für Ihr Betriebssystem geeignete Version von der offiziellen Website von Elasticsearch herunterladen und gemäß der offiziellen Dokumentation installieren und konfigurieren.
Schritt 2: Elasticsearch-Index einrichten
In Elasticsearch werden Daten im Index gespeichert. Wir müssen die Struktur und Felder des Index definieren. Das Folgende ist eine Beispiel-Indexdefinition zum Speichern der Daten, die wir von der Website entfernen:
PUT my_index { "mappings": { "properties": { "title": { "type": "text" }, "content": { "type": "text" }, "url": { "type": "keyword" } } } }
Hier definieren wir einen Index mit dem Namen „my_index“, der „title“, „content“ und „url“ enthält. Drei Felder. Die Felder „Titel“ und „Inhalt“ sind vom Typ „Text“ und das Feld „URL“ vom Typ „Schlüsselwort“. Sie können je nach Bedarf weitere Felder definieren.
Schritt 3: PHP-Crawler-Code schreiben
Als Nächstes schreiben wir mit PHP einen einfachen Webcrawler, um Daten von der angegebenen Website zu crawlen und die Daten in Elasticsearch zu speichern. Das Folgende ist ein Beispielcode:
<?php // 定义需要抓取的目标网站URL $targetUrl = "https://www.example.com"; // 创建一个Elasticsearch客户端实例 $esClient = new ElasticsearchClient(); // 从目标网站上获取HTML内容 $htmlContent = file_get_contents($targetUrl); // 使用正则表达式提取标题和内容 preg_match('/<title>(.*?)</title>/', $htmlContent, $titleMatches); preg_match('/<body>(.*?)</body>/', $htmlContent, $contentMatches); // 抓取到的数据 $title = $titleMatches[1]; $content = strip_tags($contentMatches[1]); // 去除HTML标签 // 构建文档 $document = [ 'index' => 'my_index', 'body' => [ 'title' => $title, 'content' => $content, 'url' => $targetUrl ] ]; // 将文档存储到Elasticsearch中 $esClient->index($document); echo "数据已成功存储到Elasticsearch中!"; ?>
In diesem Code definieren wir zunächst die URL der Zielwebsite, die gecrawlt werden soll. Anschließend wurde eine Elasticsearch-Client-Instanz für die Interaktion mit Elasticsearch erstellt. Verwenden Sie als Nächstes die Funktion file_get_contents, um den HTML-Inhalt der Zielwebsite abzurufen, und verwenden Sie dann reguläre Ausdrücke, um Titel und Inhalt zu extrahieren. Abschließend wird das Dokument erstellt und in Elasticsearch gespeichert. Der Speichervorgang verwendet die von Elasticsearch bereitgestellte Indexfunktion.
Schritt 4: Führen Sie den Crawler-Code aus.
Speichern Sie den obigen Code in einer PHP-Datei und laden Sie ihn auf Ihren Server hoch. Führen Sie dann die Datei im Terminal oder in der Befehlszeile aus, um die Ausführung des Crawlers zu starten.
$ php crawler.php
Der Crawler crawlt Daten von der angegebenen Website und speichert sie in Elasticsearch.
Fazit:
Durch die Kombination von Elasticsearch und PHP können wir einen einfachen, aber leistungsstarken Echtzeit-Webcrawler erstellen. Mit den Such- und Analysefunktionen von Elasticsearch können wir die gecrawlten Daten einfach durchsuchen und analysieren. Ich hoffe, dieser Artikel ist hilfreich für Sie. Versuchen Sie, Ihren eigenen Echtzeit-Webcrawler zu erstellen!
Das obige ist der detaillierte Inhalt vonSo erstellen Sie einen Echtzeit-Webcrawler mit Elasticsearch und PHP. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!