>  기사  >  백엔드 개발  >  동시성 웹 크롤링을 위해 Go 언어에서 고루틴을 사용하는 방법

동시성 웹 크롤링을 위해 Go 언어에서 고루틴을 사용하는 방법

WBOY
WBOY원래의
2023-07-21 19:01:081438검색

고동시 웹 크롤링을 위해 Go 언어에서 고루틴을 사용하는 방법

소개:
인터넷의 지속적인 발전과 함께 크롤러 기술은 빅 데이터 및 인공 지능과 같은 분야에서 널리 사용되었습니다. 효율적이고 안정적이며 본질적으로 동시성을 지원하는 언어인 Go 언어는 동시성 웹 크롤러를 구현하는 데 매우 적합합니다. 이 글에서는 Go 언어의 고루틴 기능을 사용하여 간단하지만 효율적인 웹 크롤러를 구축하는 방법을 소개합니다.

1. 고루틴이란
우선 고루틴의 개념을 이해해야 합니다. 고루틴은 Go 언어 동시 프로그래밍의 핵심 개념 중 하나이며 경량 스레드 또는 코루틴으로 이해될 수 있습니다. 고루틴은 별도의 스레드에서 실행될 수 있으며 Go 언어의 런타임 스케줄러에 의해 관리되고 예약될 수 있습니다. 전통적인 스레드 및 코루틴 모델과 비교하여 Goroutine은 메모리 오버헤드가 적고 실행 성능이 높습니다.

2. 크롤러의 기본 원리
웹 크롤러를 구현하기 전에 먼저 크롤러의 기본 원리를 이해해야 합니다. 기본 크롤러 프로세스에는 다음 단계가 포함됩니다.

  1. 크롤링할 URL을 지정합니다.
  2. URL을 기반으로 HTTP 요청을 보내고 반환된 HTML 콘텐츠를 얻습니다.
  3. HTML 콘텐츠를 구문 분석하고 필요한 데이터를 추출합니다. 계속해서 다음 링크를 탐색하고 위의 과정을 반복합니다.
  4. 3. 고루틴을 사용하여 높은 동시성 크롤러 구현
다음으로 고루틴을 사용하여 높은 동시성 웹 크롤러를 구현하기 시작합니다. 먼저 일부 Go 언어 표준 라이브러리와 타사 라이브러리를 가져와야 합니다.

package main

import (
    "fmt"
    "net/http"
    "io/ioutil"
    "regexp"
    "sync"
)

func main() {
    // 爬虫入口地址
    url := "https://example.com"

    // 创建一个 WaitGroup,用于等待所有 Goroutine 完成
    var wg sync.WaitGroup
    // 创建一个无缓冲的管道,用于传递需要爬取的网址
    urls := make(chan string)

    // 启动一个 Goroutine 用于传入入口地址
    wg.Add(1)
    go func() {
        urls <- url
        }()
    
    // 启动一个 Goroutine 用于爬取网址内容
    go func() {
        for url := range urls {
            // 发送 HTTP 请求
            resp, err := http.Get(url)
            if err != nil {
                fmt.Println("Error:", err)
                continue
            }

            // 读取响应内容
            body, err := ioutil.ReadAll(resp.Body)
            resp.Body.Close()
            if err != nil {
                fmt.Println("Error:", err)
                continue
            }

            // 提取网址中的链接,添加到管道中
            re := regexp.MustCompile(`<a[^>]+href=["'](https?://[^"']+)["']`)
            matches := re.FindAllStringSubmatch(string(body), -1)
            for _, match := range matches {
                go func(u string) {
                    urls <- u
                }(match[1])
            }
        }
        // 告诉 WaitGroup 这个 Goroutine 的工作已经完成
        wg.Done()
    }()

    // 等待所有 Goroutine 完成
    wg.Wait()
}

위 코드에서는 먼저 WaitGroup wg와 버퍼링되지 않은 파이프라인 URL을 생성합니다. 그런 다음 기본 고루틴에서는 크롤러 항목 주소가 먼저 파이프라인으로 전송된 다음 고루틴이 시작되어 웹 콘텐츠를 크롤링합니다. 이 고루틴에서는 HTTP GET 요청을 사용하여 웹페이지의 콘텐츠를 얻고, 정규식을 사용하여 웹페이지의 링크를 추출하고, 링크를 파이프라인에 추가합니다. 마지막으로 wg.Wait()를 사용하여 모든 고루틴이 완료될 때까지 기다립니다.

결론:

고루틴을 사용하면 Go 언어로 동시성 높은 웹 크롤러를 쉽게 구현할 수 있습니다. Goroutine의 가볍고 효율적인 성능을 통해 여러 웹 페이지를 동시에 크롤링하고 링크의 링크를 재귀적으로 크롤링하여 필요한 데이터를 빠르게 얻을 수 있습니다. 또한 Go 언어의 동시성 지원으로 인해 크롤러 프로그램이 더욱 안정적이고 신뢰할 수 있게 되었습니다.


참조 링크:

Go 동시 프로그래밍, https://golang.google.cn/doc/ Effective_go.html#concurrency
  1. Go 표준 라이브러리, https://golang.google.cn/pkg/
  2. Go 정규식 튜토리얼, https://learn.go.dev/regular-expressions

위 내용은 동시성 웹 크롤링을 위해 Go 언어에서 고루틴을 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.