Golang 크롤러 작성 방법-Golang-php.cn

집

백엔드 개발

Golang

Golang 크롤러 작성 방법

王林

May 10, 2023 am 11:12 AM

Golang은 효율적이고 동시적인 웹 크롤러를 작성하는 데 적합한 최신 프로그래밍 언어입니다. Golang의 높은 동시성 기능은 크롤링 속도를 크게 높일 수 있으며 구문이 간결하고 배우고 이해하기 쉽습니다. 이 기사에서는 Golang을 사용하여 간단한 웹 크롤러를 작성하는 방법을 자세히 소개합니다.

Golang 설치

먼저 Golang을 설치해야 합니다. 공식 홈페이지(https://golang.org/dl/)에서 해당 운영체제의 바이너리 파일을 다운로드하여 설치하실 수 있습니다. 설치 후에는 환경변수를 설정해야 합니다. Linux 및 Mac에서는 ~/.bashrc 파일을 편집하고 파일 끝에 다음을 추가할 수 있습니다.

export GOPATH=$HOME/go
export PATH=$PATH:$GOPATH/bin

Windows의 경우, 환경 변수를 편집하고 환경 변수에 GOPATH를 추가하고 PATH에 %GOPATH%를 추가할 수 있습니다.

Go 모듈을 사용하여 종속성 관리

Golang 1.13 이상에서는 Go 모듈이 공식 종속성 관리 도구로 공식 인정됩니다. 이를 사용하여 프로젝트 종속성을 관리할 수 있습니다. 프로젝트 루트 디렉터리로 이동하여 다음 명령을 실행합니다.

go mod init spider

는 스파이더 프로젝트에 대한 정보가 포함된 go.mod 파일을 생성합니다.

HTTP 클라이언트 구축

HTTP 클라이언트를 작성하려면 Golang과 함께 제공되는 net/http 패키지를 사용해야 합니다. 이 패키지는 HTTP 요청 및 응답 구문 분석을 포함하여 HTTP 프로토콜의 모든 세부 사항을 구현합니다.

먼저 새 HTTP 클라이언트를 만듭니다:

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

}

이 클라이언트를 사용하여 HTTP GET 요청을 보낼 수 있습니다:

func fetch( url string ) (문자열, 오류) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

}

가져오기 함수는 요청한 웹페이지의 콘텐츠와 오류를 반환합니다. 함수가 반환될 때 응답 본문이 닫히도록 defer 키워드를 사용합니다.

HTML 구문 분석

웹 페이지의 소스 코드를 성공적으로 얻은 후에는 HTML을 구문 분석하여 필요한 정보를 얻어야 합니다. Go 언어의 html/template(HTML 템플릿) 및 html/parse(HTML 파서)의 표준 패키지를 사용할 수 있습니다.

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

}

html.Parse 함수를 사용하여 HTML 소스 코드를 구문 분석하고 트리 구조로 반환할 수 있습니다. 이 트리 구조를 재귀적으로 탐색하여 필요한 정보를 얻을 수 있습니다.

정규 표현식 사용

때로는 HTML 소스 코드에서 URL 링크나 텍스트와 같은 특정 정보를 추출해야 할 때가 있습니다. 이 경우 정규식을 사용할 수 있습니다. Golang은 정규식을 매우 잘 지원하며 regexp 패키지를 사용하여 정규식을 구현할 수 있습니다.

예를 들어 HTML 소스 코드에서 태그의 모든 링크를 추출해야 하는 경우 다음 코드를 사용할 수 있습니다.

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

}

정규 표현식href="(.*?)"모두 일치 문자열 배열을 연결하고 반환합니다.

완전한 코드

다음은 웹사이트 페이지의 모든 태그 링크를 가져오는 완전한 크롤러 코드입니다.

package main

import (

"fmt"
"log"
"net/http"
"regexp"
"strings"
"time"

"golang.org/x/net/html"

)

const (

url = "https://example.com"

)

func main() {

htmlContent, err := fetch(url)
if err != nil {
    log.Fatal(err)
}
links := extractLinks(htmlContent)
for _, link := range links {
    fmt.Println(link)
}

}

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

}

func fetch(url string) (문자열, 오류) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

}

func extractLinks( htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

}

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

}

Summary

Golang을 사용하여 웹 크롤러를 작성하면 크롤링 속도를 크게 향상시킬 수 있으며 Golang과 같은 강력한 언어를 사용하면 To 크롤러 코드를 작성하면 더 높은 유지 관리성과 확장성을 얻을 수 있습니다. 이 문서에서는 Golang을 사용하여 간단한 크롤러를 작성하는 방법을 설명합니다. 이 글이 웹 크롤러를 배우려는 독자와 Golang을 사용하는 개발자에게 도움이 되기를 바랍니다.

위 내용은 Golang 크롤러 작성 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Golang의 영향 : 속도, 효율성 및 단순성Apr 14, 2025 am 12:11 AM

goimpactsdevelopmentpositively throughlyspeed, 효율성 및 단순성.

C와 Golang : 성능이 중요 할 때Apr 13, 2025 am 12:11 AM

C는 하드웨어 리소스 및 고성능 최적화가 직접 제어되는 시나리오에 더 적합하지만 Golang은 빠른 개발 및 높은 동시성 처리가 필요한 시나리오에 더 적합합니다. 1.C의 장점은 게임 개발과 같은 고성능 요구에 적합한 하드웨어 특성 및 높은 최적화 기능에 가깝습니다. 2. Golang의 장점은 간결한 구문 및 자연 동시성 지원에 있으며, 이는 동시성 서비스 개발에 적합합니다.

Golang in Action : 실제 예제 및 응용 프로그램Apr 12, 2025 am 12:11 AM

Golang은 실제 응용 분야에서 탁월하며 단순성, 효율성 및 동시성으로 유명합니다. 1) 동시 프로그래밍은 Goroutines 및 채널을 통해 구현됩니다. 2) Flexible Code는 인터페이스 및 다형성을 사용하여 작성됩니다. 3) NET/HTTP 패키지로 네트워크 프로그래밍 단순화, 4) 효율적인 동시 크롤러 구축, 5) 도구 및 모범 사례를 통해 디버깅 및 최적화.

Golang : Go 프로그래밍 언어가 설명되었습니다Apr 10, 2025 am 11:18 AM

GO의 핵심 기능에는 쓰레기 수집, 정적 연결 및 동시성 지원이 포함됩니다. 1. Go Language의 동시성 모델은 고루틴 및 채널을 통한 효율적인 동시 프로그래밍을 실현합니다. 2. 인터페이스 및 다형성은 인터페이스 방법을 통해 구현되므로 서로 다른 유형을 통일 된 방식으로 처리 할 수 있습니다. 3. 기본 사용법은 기능 정의 및 호출의 효율성을 보여줍니다. 4. 고급 사용에서 슬라이스는 동적 크기 조정의 강력한 기능을 제공합니다. 5. 레이스 조건과 같은 일반적인 오류는 Getest-race를 통해 감지 및 해결할 수 있습니다. 6. 성능 최적화는 sync.pool을 통해 개체를 재사용하여 쓰레기 수집 압력을 줄입니다.

Golang의 목적 : 효율적이고 확장 가능한 시스템 구축Apr 09, 2025 pm 05:17 PM

Go Language는 효율적이고 확장 가능한 시스템을 구축하는 데 잘 작동합니다. 장점은 다음과 같습니다. 1. 고성능 : 기계 코드로 컴파일, 빠른 달리기 속도; 2. 동시 프로그래밍 : 고어 라틴 및 채널을 통한 멀티 태스킹 단순화; 3. 단순성 : 간결한 구문, 학습 및 유지 보수 비용 절감; 4. 크로스 플랫폼 : 크로스 플랫폼 컴파일, 쉬운 배포를 지원합니다.