Golang mit Colly: Verwenden Sie beim Scrapen zufällige gefälschte Benutzeragenten-Golang-php.cn

Heim

Backend-Entwicklung

Golang

Golang mit Colly: Verwenden Sie beim Scrapen zufällige gefälschte Benutzeragenten

Barbara Streisand

Jan 11, 2025 am 07:57 AM

Golang with Colly: Use Random Fake User-Agents When Scraping

Website-Scraping führt häufig zu Blockaden aufgrund der Verwendung standardmäßiger oder ungeeigneter Benutzeragenten. Dieser Artikel zeigt eine einfache Methode, um dies zu mildern, indem Sie zufällig ausgewählte gefälschte Benutzeragenten in Ihren Go Colly-Scrapern verwenden.

Fake User-Agents verstehen

Benutzeragenten sind Zeichenfolgen, die den Client identifizieren, der eine Webanfrage stellt. Sie vermitteln Informationen über die Anwendung, das Betriebssystem (Windows, macOS, Linux) und den Browser (Chrome, Firefox, Safari). Websites nutzen diese Informationen für verschiedene Zwecke, einschließlich Sicherheit und Analyse.

Eine typische Benutzeragentenzeichenfolge könnte so aussehen (Chrome auf Android):

<code>'User-Agent': 'Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Mobile Safari/537.36'</code>

Go Collys Standard-Benutzeragent:

<code>"User-Agent": "colly - https://www.php.cn/link/953bd83cb0b9c9f9dc4b3ba0bfc1b236",</code>

Erkennt Ihren Schaber leicht und erhöht das Risiko einer Blockierung. Daher ist der Einsatz eines benutzerdefinierten, zufälligen Benutzeragenten von entscheidender Bedeutung.

Implementierung eines gefälschten Benutzeragenten mit Go Colly

Das Ändern von Anforderungsheadern, um einen benutzerdefinierten Benutzeragenten einzuschließen, wird mithilfe des OnRequest()-Rückrufs erreicht. Dadurch wird sichergestellt, dass jede Anfrage eine andere Benutzeragentenzeichenfolge verwendet.

package main

import (
    "bytes"
    "log"
    "github.com/gocolly/colly"
)

func main() {
    c := colly.NewCollector(colly.AllowURLRevisit())

    c.OnRequest(func(r *colly.Request) {
        r.Headers.Set("User-Agent", "Mozilla/5.0 (iPad; CPU OS 12_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148")
    })

    c.OnResponse(func(r *colly.Response) {
        log.Printf("%s\n", bytes.Replace(r.Body, []byte("\n"), nil, -1))
    })

    for i := 0; i < 5; i++ {
        c.Visit("httpbin.org/headers")
    }
}

Dadurch wird ein einziger Benutzeragent für alle Anfragen festgelegt. Für ein robusteres Scraping verwenden Sie einen randomisierten Ansatz.

Rotation durch zufällige Benutzeragenten

Das github.com/lib4u/fake-useragent-Paket vereinfacht die zufällige Auswahl von Benutzeragenten.

package main

import (
    "bytes"
    "fmt"
    "log"
    "github.com/gocolly/colly"
    uaFake "github.com/lib4u/fake-useragent"
)

func main() {
    ua, err := uaFake.New()
    if err != nil {
        fmt.Println(err)
    }
    c := colly.NewCollector(colly.AllowURLRevisit())

    c.OnRequest(func(r *colly.Request) {
        r.Headers.Set("User-Agent", ua.Filter().GetRandom())
    })

    c.OnResponse(func(r *colly.Response) {
        log.Printf("%s\n", bytes.Replace(r.Body, []byte("\n"), nil, -1))
    })

    for i := 0; i < 5; i++ {
        c.Visit("httpbin.org/headers")
    }
}

Dieses Code-Snippet ruft für jede Anfrage einen zufälligen Benutzeragenten ab.

Verwendung spezifischer gefälschter Benutzeragenten

github.com/lib4u/fake-useragent bietet Filteroptionen. Um beispielsweise einen zufälligen Desktop-Chrome-Benutzeragenten zu verwenden:

r.Headers.Set("User-Agent", ua.Filter().Chrome().Platform(uaFake.Desktop).Get())

Denken Sie daran, beim Scrapen immer die robots.txt und Nutzungsbedingungen einer Website zu respektieren. Die Verwendung zufälliger Benutzeragenten ist eine Technik unter vielen für verantwortungsvolles Web-Scraping. Erwägen Sie auch die Verwendung von Proxys und anderen Header-Verwaltungsstrategien.

Referenzen:

Das obige ist der detaillierte Inhalt vonGolang mit Colly: Verwenden Sie beim Scrapen zufällige gefälschte Benutzeragenten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Golang und Python: Verständnis der UnterschiedeApr 18, 2025 am 12:21 AM

Die Hauptunterschiede zwischen Golang und Python sind Parallelitätsmodelle, Typsysteme, Leistung und Ausführungsgeschwindigkeit. 1. Golang verwendet das CSP -Modell, das für hohe gleichzeitige Aufgaben geeignet ist. Python verlässt sich auf Multi-Threading und Gil, was für I/O-intensive Aufgaben geeignet ist. 2. Golang ist ein statischer Typ und Python ist ein dynamischer Typ. 3.. Golang kompilierte Sprachausführungsgeschwindigkeit ist schnell und Python interpretierte die Sprachentwicklung schnell.

Golang gegen C: Bewertung des GeschwindigkeitsunterschiedsApr 18, 2025 am 12:20 AM

Golang ist in der Regel langsamer als C, aber Golang hat mehr Vorteile für die gleichzeitige Programmier- und Entwicklungseffizienz: 1) Golangs Müllsammlung und Parallelitätsmodell macht es in hohen Parallelitätsszenarien gut ab. 2) C erhält eine höhere Leistung durch das manuelle Speichermanagement und die Hardwareoptimierung, weist jedoch eine höhere Komplexität der Entwicklung auf.

Golang: Eine Schlüsselsprache für Cloud Computing und DevOpsApr 18, 2025 am 12:18 AM

Golang wird häufig in Cloud -Computing und DevOps verwendet, und seine Vorteile liegen in Einfachheit, Effizienz und gleichzeitigen Programmierfunktionen. 1) Beim Cloud Computing behandelt Golang effizient gleichzeitige Anforderungen über Goroutine- und Kanalmechanismen. 2) In DevOps machen Golangs schnelle Zusammenstellung und plattformübergreifende Funktionen die erste Wahl für Automatisierungswerkzeuge.

Golang und C: Ausführungseffizienz verstehenApr 18, 2025 am 12:16 AM

Golang und C haben jeweils ihre eigenen Vorteile bei der Leistungseffizienz. 1) Golang verbessert die Effizienz durch Goroutine- und Müllsammlung, kann jedoch eine Pause einführen. 2) C realisiert eine hohe Leistung durch das manuelle Speicherverwaltung und -optimierung, aber Entwickler müssen sich mit Speicherlecks und anderen Problemen befassen. Bei der Auswahl müssen Sie Projektanforderungen und Teamtechnologie -Stack in Betracht ziehen.

Golang vs. Python: Parallelität und MultithreadingApr 17, 2025 am 12:20 AM

Golang eignet sich besser für hohe Parallelitätsaufgaben, während Python mehr Vorteile bei der Flexibilität hat. 1. Golang behandelt die Parallelität effizient über Goroutine und Kanal. 2. Python stützt sich auf Threading und Asyncio, das von GIL betroffen ist, jedoch mehrere Parallelitätsmethoden liefert. Die Wahl sollte auf bestimmten Bedürfnissen beruhen.

Golang und C: Die Kompromisse bei der LeistungApr 17, 2025 am 12:18 AM

Die Leistungsunterschiede zwischen Golang und C spiegeln sich hauptsächlich in der Speicherverwaltung, der Kompilierungsoptimierung und der Laufzeiteffizienz wider. 1) Golangs Müllsammlung Mechanismus ist praktisch, kann jedoch die Leistung beeinflussen.

Golang vs. Python: Anwendungen und AnwendungsfälleApr 17, 2025 am 12:17 AM

Wählen SieGolangforHighperformanceConcurcurrency, idealforbackendServicesandNetworkProgramming; selectPythonforrapidDevelopment, DataScience und MachinelearningDuEToSverseStilityAntenSiveselibrary.

Golang gegen Python: Schlüsselunterschiede und ÄhnlichkeitenApr 17, 2025 am 12:15 AM

Golang und Python haben jeweils ihre eigenen Vorteile: Golang ist für hohe Leistung und gleichzeitige Programmierung geeignet, während Python für Datenwissenschaft und Webentwicklung geeignet ist. Golang ist bekannt für sein Parallelitätsmodell und seine effiziente Leistung, während Python für sein Ökosystem für die kurze Syntax und sein reiches Bibliothek bekannt ist.

See all articles