Heim >Backend-Entwicklung >Golang >Wie schreibe ich einen Golang-Crawler?

Wie schreibe ich einen Golang-Crawler?

王林Original: 2023-05-10 11:12:07761Durchsuche

Golang ist eine moderne Programmiersprache, die sich zum Schreiben effizienter und gleichzeitiger Webcrawler eignet. Die hohe Parallelitätsfunktion von Golang kann das Crawlen erheblich beschleunigen, und die Syntax ist prägnant und leicht zu erlernen und zu verstehen. In diesem Artikel wird ausführlich beschrieben, wie Sie mit Golang einen einfachen Webcrawler schreiben.

Golang installieren

Zuerst müssen Sie Golang installieren. Sie können die Binärdateien des entsprechenden Betriebssystems von der offiziellen Website (https://golang.org/dl/) herunterladen und installieren. Nach der Installation müssen Sie Umgebungsvariablen festlegen. Unter Linux und Mac können Sie die Datei ~/.bashrc bearbeiten und am Ende der Datei Folgendes hinzufügen:

export GOPATH=$HOME/go
export PATH=$PATH:$GOPATH/bin

Unter Windows: Sie können die Umgebungsvariablen bearbeiten und GOPATH zu den Umgebungsvariablen hinzufügen und %GOPATH% zum PATH hinzufügen.

Verwenden Sie Go-Module zum Verwalten von Abhängigkeiten

In Golang 1.13 und höher ist Go-Module offiziell als offizielles Abhängigkeitsmanagement-Tool anerkannt. Wir können es verwenden, um unsere Projektabhängigkeiten zu verwalten. Gehen Sie in das Stammverzeichnis des Projekts und führen Sie den folgenden Befehl aus:

go mod init Spider

erstellt eine go.mod-Datei, die Informationen über das Spider-Projekt enthält.

Erstellen Sie einen HTTP-Client

Das Schreiben eines HTTP-Clients erfordert die Verwendung des net/http-Pakets, das mit Golang geliefert wird. Dieses Paket implementiert alle Details des HTTP-Protokolls, einschließlich der Analyse von HTTP-Anfragen und -Antworten.

Zuerst erstellen wir einen neuen HTTP-Client:

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

}

Wir können diesen Client verwenden, um HTTP-GET-Anfragen zu senden:

func fetch( URL-String ) (Zeichenfolge, Fehler) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

}

Die Abruffunktion gibt den Inhalt der angeforderten Webseite und alle Fehler zurück. Wir verwenden das Schlüsselwort defer, um sicherzustellen, dass der Antworttext geschlossen wird, wenn die Funktion zurückkehrt.

HTML analysieren

Sobald wir den Quellcode der Webseite erfolgreich erhalten haben, müssen wir den HTML-Code analysieren, um die erforderlichen Informationen zu erhalten. Wir können die Standardpakete der Go-Sprache html/template (HTML-Vorlage) und html/parse (HTML-Parser) verwenden.

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

}

Wir können die Funktion html.Parse verwenden, um den HTML-Quellcode zu analysieren und ihn als Baumstruktur zurückzugeben. Wir können die erforderlichen Informationen erhalten, indem wir diese Baumstruktur rekursiv durchlaufen.

Reguläre Ausdrücke verwenden

Manchmal müssen wir bestimmte Informationen aus dem HTML-Quellcode extrahieren, beispielsweise einen URL-Link oder einen Text. In diesem Fall können wir reguläre Ausdrücke verwenden. Golang unterstützt reguläre Ausdrücke sehr gut und wir können das Paket regexp verwenden, um reguläre Ausdrücke zu implementieren.

Wenn wir beispielsweise alle Links eines Tags aus dem HTML-Quellcode extrahieren müssen, können wir den folgenden Code verwenden:

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

}

regulärer Ausdruckhref="(.*?)"match all Verknüpfen Sie ein Array von Zeichenfolgen und geben Sie es zurück.

Vollständiger Code

Das Folgende ist ein vollständiger Crawler-Code, der alle Tag-Links auf einer Website-Seite abruft:

package main

import (

"fmt"
"log"
"net/http"
"regexp"
"strings"
"time"

"golang.org/x/net/html"

)

const (

url = "https://example.com"

)

fu nc main() {

htmlContent, err := fetch(url)
if err != nil {
    log.Fatal(err)
}
links := extractLinks(htmlContent)
for _, link := range links {
    fmt.Println(link)
}

}

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

}

func fetch(url string) (string, error) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

}

func extractLinks( htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

}

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

}

Zusammenfassung

Die Verwendung von Golang zum Schreiben von Webcrawlern kann die Crawling-Geschwindigkeit erheblich verbessern, und die Verwendung einer leistungsstarken Sprache wie Golang To Durch das Schreiben von Crawler-Code können Sie eine höhere Wartbarkeit und Skalierbarkeit erreichen. In diesem Artikel wird beschrieben, wie Sie mit Golang einen einfachen Crawler schreiben. Ich hoffe, dieser Artikel kann Lesern helfen, die Webcrawler erlernen möchten, sowie Entwicklern, die Golang verwenden.

Das obige ist der detaillierte Inhalt vonWie schreibe ich einen Golang-Crawler?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

golang 正则表达式 html String Error const 字符串递归 Go语言并发 regexp href windows http https linux

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Golang-Funktionen und -MethodenNächster Artikel：Golang-Funktionen und -Methoden

In Verbindung stehende Artikel

Mehr sehen