찾다
백엔드 개발Golang웹 스크래핑 시작

웹 스크래핑 시작

Sep 10, 2024 pm 02:30 PM

첫 번째 단계

먼저 Go가 설치되어 있어야 합니다. Go를 다운로드하고 설치하는 방법은 다음과 같습니다.

프로젝트를 위한 새 폴더를 생성하고 해당 디렉토리로 이동한 후 다음 명령을 실행합니다.

go mod init scraper

? go mod init 명령은 실행되는 디렉토리에서 새 Go 모듈을 초기화하고 코드 종속성을 추적하기 위해 go.mod 파일을 생성하는 데 사용됩니다. 종속성 관리

이제 Colibri를 설치해 보겠습니다.

go get github.com/gonzxlez/colibri

? Colibri는 JSON에 정의된 일련의 규칙을 사용하여 웹에서 구조화된 데이터를 크롤링하고 추출할 수 있게 해주는 Go 패키지입니다. 저장소


추출 규칙

콜리브리가 필요한 데이터를 추출하는 데 사용할 규칙을 정의합니다. 문서

Go 패키지의 xpath와 관련된 Go 패키지에 대한 쿼리 결과가 포함된 URL https://pkg.go.dev/search?q=xpath에 HTTP 요청을 보내겠습니다.

웹 브라우저에 포함된 개발 도구를 사용하여 페이지의 HTML 구조를 검사할 수 있습니다. 브라우저 개발 도구는 무엇인가요?

Web Scraping en Go

<div class="SearchSnippet">
   <div class="SearchSnippet-headerContainer">
      <h2>
         <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title">
         xpath
         <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span>
         </a>
      </h2>
   </div>
   <div class="SearchSnippet-infoLabel">
      <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By">
      <span class="go-textSubtle">Imported by </span><strong>143</strong>
      </a>
      <span class="go-textSubtle">|</span>
      <span class="go-textSubtle">
      <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span>
      </span>
      <span class="go-textSubtle">|</span>
      <span data-test-id="snippet-license">
      <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses">
      MIT
      </a>
      </span>
   </div>
</div>

쿼리 결과를 나타내는 HTML 구조의 일부입니다.

그런 다음 SearchSnippet 클래스가 있는 HTML의 모든 div 요소를 찾는 선택기 "패키지"가 필요합니다. 해당 요소에서 " name”h2 요소 내에서 a 요소의 텍스트와 선택기 “path” a 요소의 href 속성 값을 사용합니다. h2 요소입니다. 즉, "name"은 Go 패키지의 이름을 사용하고 "path"는 패키지 경로를 사용합니다 :)

{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}
    방법:
  • 은 HTTP 방법(GET, POST, PUT, ...)을 지정합니다.
  • url:
  • 요청 URL
  • timeout:
  • HTTP 요청에 대한 시간 제한(밀리초)입니다.
  • 선택자:
  • 선택자.
      “패키지”
    • :는 선택기의 이름입니다.
        expr:
      • 선택자 표현식
      • all:
      • 은 표현식과 일치하는 모든 요소를 ​​찾도록 지정합니다.
      • 유형:
      • 표현식의 유형(이 경우 CSS 선택기)
      • 선택자:
      • 중첩된 선택자입니다.
          “이름”
        • “경로”는 선택기의 이름이고 해당 값은 표현식(이 경우 XPath 표현식)입니다.
Go의 코드

scraper.go 파일을 만들고, 필요한 패키지를 가져오고, 주요 기능을 정의할 준비가 되었습니다.


package main

import (
    "encoding/json"
    "fmt"

    "github.com/gonzxlez/colibri"
    "github.com/gonzxlez/colibri/webextractor"
)

var rawRules = `{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}`

func main() {
    we, err := webextractor.New()
    if err != nil {
        panic(err)
    }

    var rules colibri.Rules
    err = json.Unmarshal([]byte(rawRules), &rules)
    if err != nil {
        panic(err)
    }

    output, err := we.Extract(&rules)
    if err != nil {
        panic(err)
    }

    fmt.Println("URL:", output.Response.URL())
    fmt.Println("Status code:", output.Response.StatusCode())
    fmt.Println("Content-Type", output.Response.Header().Get("Content-Type"))
    fmt.Println("Data:", output.Data)
}
? WebExtractor는 웹에서 데이터를 크롤링하거나 추출할 수 있는 Colibri의 기본 인터페이스입니다.

webextractor의 새로운 기능을 사용하여 데이터 추출을 시작하는 데 필요한 Colibri 구조를 생성합니다.

그런 다음 JSON의 규칙을 Rules 구조로 변환하고 규칙을 인수로 보내는 Extract 메소드를 호출합니다.

HTTP 응답의 출력과 URL, HTTP 상태 코드, 응답의 콘텐츠 유형 및 선택기로 추출된 데이터를 화면에 인쇄합니다. 출력 구조에 대한 문서를 참조하세요.

다음 명령을 실행합니다.


go mod tidy
? go mod tidy 명령은 go.mod의 종속성이 모듈 소스 코드와 일치하는지 확인합니다.

마지막으로 다음 명령을 사용하여 Go에서 코드를 컴파일하고 실행합니다.


go run scraper.go
결론

이 게시물에서는 Colibri 패키지를 사용하여 Go에서 웹 스크래핑을 수행하고 CSS 및 XPath 선택기로 추출 규칙을 정의하는 방법을 배웠습니다. Colibri는 Go에서 웹 데이터 수집을 자동화하려는 사람들을 위한 도구로 등장합니다. 규칙 기반 접근 방식과 사용 용이성은 모든 경험 수준의 개발자에게 매력적인 옵션입니다.

간단히 말하면 Go의 Web Scraping은 다양한 웹사이트에서 정보를 추출하는 데 사용할 수 있는 강력하고 다재다능한 기술입니다. 웹 스크래핑은 웹사이트의 이용 약관을 존중하고 서버 과부하를 피하면서 윤리적으로 수행되어야 한다는 점을 강조하는 것이 중요합니다.

위 내용은 웹 스크래핑 시작의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
C와 Golang : 성능이 중요 할 때C와 Golang : 성능이 중요 할 때Apr 13, 2025 am 12:11 AM

C는 하드웨어 리소스 및 고성능 최적화가 직접 제어되는 시나리오에 더 적합하지만 Golang은 빠른 개발 및 높은 동시성 처리가 필요한 시나리오에 더 적합합니다. 1.C의 장점은 게임 개발과 같은 고성능 요구에 적합한 하드웨어 특성 및 높은 최적화 기능에 가깝습니다. 2. Golang의 장점은 간결한 구문 및 자연 동시성 지원에 있으며, 이는 동시성 서비스 개발에 적합합니다.

Golang in Action : 실제 예제 및 응용 프로그램Golang in Action : 실제 예제 및 응용 프로그램Apr 12, 2025 am 12:11 AM

Golang은 실제 응용 분야에서 탁월하며 단순성, 효율성 및 동시성으로 유명합니다. 1) 동시 프로그래밍은 Goroutines 및 채널을 통해 구현됩니다. 2) Flexible Code는 인터페이스 및 다형성을 사용하여 작성됩니다. 3) NET/HTTP 패키지로 네트워크 프로그래밍 단순화, 4) 효율적인 동시 크롤러 구축, 5) 도구 및 모범 사례를 통해 디버깅 및 최적화.

Golang : Go 프로그래밍 언어가 설명되었습니다Golang : Go 프로그래밍 언어가 설명되었습니다Apr 10, 2025 am 11:18 AM

GO의 핵심 기능에는 쓰레기 수집, 정적 연결 및 동시성 지원이 포함됩니다. 1. Go Language의 동시성 모델은 고루틴 및 채널을 통한 효율적인 동시 프로그래밍을 실현합니다. 2. 인터페이스 및 다형성은 인터페이스 방법을 통해 구현되므로 서로 다른 유형을 통일 된 방식으로 처리 할 수 ​​있습니다. 3. 기본 사용법은 기능 정의 및 호출의 효율성을 보여줍니다. 4. 고급 사용에서 슬라이스는 동적 크기 조정의 강력한 기능을 제공합니다. 5. 레이스 조건과 같은 일반적인 오류는 Getest-race를 통해 감지 및 해결할 수 있습니다. 6. 성능 최적화는 sync.pool을 통해 개체를 재사용하여 쓰레기 수집 압력을 줄입니다.

Golang의 목적 : 효율적이고 확장 가능한 시스템 구축Golang의 목적 : 효율적이고 확장 가능한 시스템 구축Apr 09, 2025 pm 05:17 PM

Go Language는 효율적이고 확장 가능한 시스템을 구축하는 데 잘 작동합니다. 장점은 다음과 같습니다. 1. 고성능 : 기계 코드로 컴파일, 빠른 달리기 속도; 2. 동시 프로그래밍 : 고어 라틴 및 채널을 통한 멀티 태스킹 단순화; 3. 단순성 : 간결한 구문, 학습 및 유지 보수 비용 절감; 4. 크로스 플랫폼 : 크로스 플랫폼 컴파일, 쉬운 배포를 지원합니다.

SQL 분류의 진술에 의한 순서 결과가 때때로 무작위로 보이는 이유는 무엇입니까?SQL 분류의 진술에 의한 순서 결과가 때때로 무작위로 보이는 이유는 무엇입니까?Apr 02, 2025 pm 05:24 PM

SQL 쿼리 결과의 정렬에 대해 혼란스러워합니다. SQL을 학습하는 과정에서 종종 혼란스러운 문제가 발생합니다. 최근 저자는 "Mick-SQL 기본 사항"을 읽고 있습니다.

기술 스택 컨버전스는 기술 스택 선택의 프로세스 일뿐입니까?기술 스택 컨버전스는 기술 스택 선택의 프로세스 일뿐입니까?Apr 02, 2025 pm 05:21 PM

기술 스택 컨버전스와 기술 선택의 관계, 소프트웨어 개발에서 기술 스택의 선택 및 관리는 매우 중요한 문제입니다. 최근에 일부 독자들은 ...

반사 비교를 사용하고 GO의 세 구조의 차이점을 처리하는 방법은 무엇입니까?반사 비교를 사용하고 GO의 세 구조의 차이점을 처리하는 방법은 무엇입니까?Apr 02, 2025 pm 05:15 PM

GO 언어로 세 가지 구조를 비교하고 처리하는 방법. GO 프로그래밍에서는 때때로 두 구조의 차이점을 비교하고 이러한 차이점을 ...에 적용해야합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.