Rumah >pembangunan bahagian belakang >Golang >Adakah golang mempunyai crawler?

Adakah golang mempunyai crawler?

WBOY
WBOYasal
2023-05-13 09:28:36717semak imbas

Dengan perkembangan Internet, maklumat rangkaian telah menjadi lebih banyak dan lebih banyak, tetapi cara menangkap data secara cekap daripada beberapa tapak web atau aplikasi telah menjadi cabaran besar yang dihadapi oleh banyak pembangun. Pada masa lalu, banyak pembangun menggunakan bahasa seperti Python atau Java untuk pembangunan crawler, tetapi dalam beberapa tahun kebelakangan ini, semakin ramai pembangun telah mula memilih untuk menggunakan golang untuk pembangunan crawler.

Jadi, adakah golang mempunyai crawler? Jawapannya ya. Pustaka standard bahasa Go sudah mempunyai sokongan terbina dalam untuk permintaan HTTP dan protokol rangkaian, dan terdapat juga banyak pilihan dalam perpustakaan pihak ketiga. Dalam artikel ini, kami akan memperkenalkan beberapa perpustakaan perangkak golang yang biasa digunakan untuk membantu pembangun lebih memahami penggunaan golang dalam pembangunan perangkak.

  1. goquery

goquery ialah penghurai HTML berdasarkan sintaks jQuery Ia menggunakan sintaks pemilih bahasa go untuk membuat pertanyaan dan menghuraikan dokumen HTML. Pustaka ini serasi sepenuhnya dengan pemilih dan kaedah biasa jQuery, menjadikannya sangat mesra pembangun.

Menggunakan goquery, kami boleh menghuraikan data yang diperlukan daripada dokumen HTML dengan mudah. Sebagai contoh, kita boleh menggunakan kod berikut untuk mendapatkan tajuk dan URL daripada hasil carian Baidu:

package main

import (
    "fmt"
    "github.com/PuerkitoBio/goquery"
    "log"
)

func main() {
    url := "https://www.baidu.com/s?wd=golang"
    doc, err := goquery.NewDocument(url)
    if err != nil {
        log.Fatal(err)
    }

    doc.Find("#content_left h3 a").Each(func(i int, s *goquery.Selection) {
        title := s.Text()
        link, _ := s.Attr("href")
        fmt.Printf("%d. %s - %s
", i+1, title, link)
    })
}

Kod ini menggunakan goquery untuk menghuraikan halaman hasil carian Baidu dan mengekstrak tajuk dan URL setiap hasil carian daripadanya . Perlu diingatkan bahawa kaedah Cari dalam pustaka goquery boleh menggunakan pemilih CSS atau ungkapan XPath untuk mencari elemen.

  1. colly

colly ialah rangka kerja perangkak golang yang sangat fleksibel dan boleh dikonfigurasikan yang menyokong permintaan rangkaian tak segerak, percubaan semula automatik, pengekstrakan data, tetapan proksi dan ciri lain. Dengan bantuan colly, kami boleh menulis program perangkak yang stabil dan cekap dengan cepat.

Berikut ialah contoh mudah merangkak hasil carian Baidu:

package main

import (
    "fmt"
    "github.com/gocolly/colly"
)

func main() {
    c := colly.NewCollector()

    c.OnHTML("#content_left h3 a", func(e *colly.HTMLElement) {
        title := e.Text
        link := e.Attr("href")
        fmt.Printf("%s - %s
", title, link)
    })

    c.Visit("https://www.baidu.com/s?wd=golang")
}

Kod ini menggunakan rangka kerja colly untuk menghuraikan halaman hasil carian Baidu dan mengekstrak tajuk dan URL setiap hasil carian. Perlu diingatkan bahawa kaedah OnHTML dalam pustaka colly boleh menentukan pemilih elemen HTML dan melaksanakan fungsi panggil balik apabila elemen yang sepadan dipadankan.

  1. go_spider

go_spider ialah rangka kerja perangkak berkonkurensi tinggi berdasarkan golang Ia menyokong pelbagai kaedah penyimpanan data, rangkak teragih, penyahduplikasian data, dll . Dengan bantuan go_spider, kami boleh membina aplikasi perangkak berprestasi tinggi dengan mudah.

Berikut ialah contoh menggunakan rangka kerja go_spider untuk merangkak hasil carian Baidu:

package main

import (
    "fmt"
    "github.com/hu17889/go_spider/core/common/page"
    "github.com/hu17889/go_spider/core/pipeline"
    "github.com/hu17889/go_spider/core/spider"
    "github.com/hu17889/go_spider/core/spider/parsers"
    "github.com/hu17889/go_spider/core/spider/parsers/common"
)

type BaiduResult struct {
    Title string `json:"title"`
    Link  string `json:"link"`
}

func main() {
    s := spider.NewSpider(nil)

    s.SetStartUrl("https://www.baidu.com/s?wd=golang")
    s.SetThreadnum(5)

    s.SetParseFunc(func(p *page.Page) {
        results := make([]*BaiduResult, 0)
        sel := parsers.Selector(p.GetBody())

        sel.Find("#content_left h3 a").Each(func(i int, s *common.Selection) {
            title := s.Text()
            link, ok := s.Attr("href")

            if ok && len(title) > 0 && len(link) > 0 {
                result := &BaiduResult{
                    Title: title,
                    Link:  link,
                }
                results = append(results, result)
            }
        })

        p.AddResultItem("results", results)
    })

    s.SetPipeline(pipeline.NewJsonWriterPipeline("results.json"))

    s.Run()
}

Kod ini menggunakan rangka kerja go_spider untuk menghuraikan halaman hasil carian Baidu dan mengekstrak tajuk dan URL setiap hasil carian , simpan hasilnya dalam format JSON. Perlu diingatkan bahawa go_spider menyediakan banyak kaedah penghuraian dan penyimpanan data, dan anda boleh memilih kaedah konfigurasi yang berbeza mengikut keperluan.

Ringkasan

Artikel ini memperkenalkan beberapa pustaka dan rangka kerja perangkak yang biasa digunakan dalam golang, termasuk goquery, colly dan go_spider. Perlu diingat bahawa apabila menggunakan perpustakaan dan rangka kerja ini, anda perlu mematuhi konvensyen perangkak dan undang-undang serta peraturan tapak web untuk mengelakkan pertikaian yang tidak perlu. Di samping itu, golang mempunyai kelebihan kesederhanaan, kemudahan penggunaan, prestasi tinggi dan skalabiliti tinggi dalam pembangunan perangkak, dan layak untuk dikaji dan digunakan secara mendalam oleh pembangun.

Atas ialah kandungan terperinci Adakah golang mempunyai crawler?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel sebelumnya:pemasangan golang+1.6+Artikel seterusnya:pemasangan golang+1.6+