Heim >Backend-Entwicklung >Golang >Erstellen einer Websuchmaschine in Go mit Elasticsearch
Websuchmaschinen sind unerlässlich, um große Mengen an Online-Informationen zu indizieren und sie in Millisekunden zugänglich zu machen. In diesem Projekt habe ich eine Suchmaschine in Go (Golang) namens RelaxSearch erstellt. Es kombiniert Web Scraping, regelmäßige Datenindizierung und Suchfunktionen durch die Integration mit Elasticsearch – einer leistungsstarken Such- und Analyse-Engine. In diesem Blog führe ich Sie durch die Hauptkomponenten von RelaxSearch, die Architektur und wie es Daten für eine schnelle, schlüsselwortbasierte Suche effizient auswertet und indiziert.
RelaxSearch basiert auf zwei Hauptmodulen:
Das Erstellen eines Suchmaschinenprojekts von Grund auf ist eine großartige Möglichkeit, Web Scraping, Datenindizierung und effiziente Suchtechniken zu verstehen. Ich wollte eine einfache, aber funktionale Suchmaschine mit schnellem Datenabruf und einfacher Erweiterbarkeit erstellen und dabei die Effizienz von Go und die leistungsstarke Indizierung von Elasticsearch nutzen.
RelaxEngine ist ein in Go geschriebener Web-Scraper, der durch Webseiten navigiert und Inhalte extrahiert und speichert. Es wird als Cron-Job ausgeführt und kann daher in regelmäßigen Abständen (z. B. alle 30 Minuten) ausgeführt werden, um den Index mit den neuesten Webdaten auf dem neuesten Stand zu halten. So funktioniert es:
RelaxWeb bietet einen RESTful-API-Endpunkt, der das Abfragen und Abrufen von in Elasticsearch gespeicherten Daten erleichtert. Die API akzeptiert mehrere Parameter wie Schlüsselwörter, Paginierung und Datumsfilterung und gibt relevante Inhalte im JSON-Format zurück.
Im Folgenden finden Sie einige wichtige Komponenten und Codeauszüge von RelaxSearch, um die Funktionsweise zu veranschaulichen.
Die Kernfunktionalität befindet sich in der Datei main.go, in der RelaxEngine mithilfe von Gocron einen Scheduler zur Verwaltung von Cron-Jobs initialisiert, den Elasticsearch-Client einrichtet und mit dem Crawlen von der Seed-URL aus beginnt.
func main() { cfg := config.LoadConfig() esClient := crawler.NewElasticsearchClient(cfg.ElasticsearchURL) c := crawler.NewCrawler(cfg.DepthLimit, 5) seedURL := "https://example.com/" // Replace with starting URL s := gocron.NewScheduler(time.UTC) s.Every(30).Minutes().Do(func() { go c.StartCrawling(seedURL, 0, esClient) }) s.StartBlocking() }
Die Datei crawler.go verarbeitet Webseitenanfragen, extrahiert Inhalte und indiziert sie. Mithilfe des Elastic-Pakets wird jede gescrollte Seite in Elasticsearch gespeichert.
func (c *Crawler) StartCrawling(pageURL string, depth int, esClient *elastic.Client) { if depth > c.DepthLimit || c.isVisited(pageURL) { return } c.markVisited(pageURL) links, title, content, description, err := c.fetchAndParsePage(pageURL) if err == nil { pageData := PageData{URL: pageURL, Title: title, Content: content, Description: description} IndexPageData(esClient, pageData) } for _, link := range links { c.StartCrawling(link, depth+1, esClient) } }
Im Relaxweb-Dienst stellt ein API-Endpunkt Volltextsuchfunktionen bereit. Der Endpunkt /search empfängt Anfragen und Abfragen von Elasticsearch und gibt relevante Inhalte basierend auf Schlüsselwörtern zurück.
func searchHandler(w http.ResponseWriter, r *http.Request) { keyword := r.URL.Query().Get("keyword") results := queryElasticsearch(keyword) json.NewEncoder(w).Encode(results) }
git clone https://github.com/Ravikisha/RelaxSearch.git cd RelaxSearch
Konfiguration
Aktualisieren Sie .env-Dateien für RelaxEngine und RelaxWeb mit Elasticsearch-Anmeldeinformationen.
Mit Docker ausführen
RelaxSearch verwendet Docker für eine einfache Einrichtung. Führen Sie einfach aus:
docker-compose up --build
RelaxSearch ist eine lehrreiche und praktische Demonstration einer einfachen Suchmaschine. Obwohl es sich noch um einen Prototyp handelt, hat dieses Projekt entscheidend zum Verständnis der Grundlagen von Web Scraping, Volltextsuche und effizienter Datenindizierung mit Go und Elasticsearch beigetragen. Es eröffnet Möglichkeiten für Verbesserungen und praktische Anwendungen in skalierbaren Umgebungen.
Erkunden Sie das GitHub-Repository, um RelaxSearch selbst auszuprobieren!
Das obige ist der detaillierte Inhalt vonErstellen einer Websuchmaschine in Go mit Elasticsearch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!