찾다
백엔드 개발Golang웹 스크래핑 시작

웹 스크래핑 시작

Sep 10, 2024 pm 02:30 PM

첫 번째 단계

먼저 Go가 설치되어 있어야 합니다. Go를 다운로드하고 설치하는 방법은 다음과 같습니다.

프로젝트를 위한 새 폴더를 생성하고 해당 디렉토리로 이동한 후 다음 명령을 실행합니다.

go mod init scraper

? go mod init 명령은 실행되는 디렉토리에서 새 Go 모듈을 초기화하고 코드 종속성을 추적하기 위해 go.mod 파일을 생성하는 데 사용됩니다. 종속성 관리

이제 Colibri를 설치해 보겠습니다.

go get github.com/gonzxlez/colibri

? Colibri는 JSON에 정의된 일련의 규칙을 사용하여 웹에서 구조화된 데이터를 크롤링하고 추출할 수 있게 해주는 Go 패키지입니다. 저장소


추출 규칙

콜리브리가 필요한 데이터를 추출하는 데 사용할 규칙을 정의합니다. 문서

Go 패키지의 xpath와 관련된 Go 패키지에 대한 쿼리 결과가 포함된 URL https://pkg.go.dev/search?q=xpath에 HTTP 요청을 보내겠습니다.

웹 브라우저에 포함된 개발 도구를 사용하여 페이지의 HTML 구조를 검사할 수 있습니다. 브라우저 개발 도구는 무엇인가요?

Web Scraping en Go

<div class="SearchSnippet">
   <div class="SearchSnippet-headerContainer">
      <h2>
         <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title">
         xpath
         <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span>
         </a>
      </h2>
   </div>
   <div class="SearchSnippet-infoLabel">
      <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By">
      <span class="go-textSubtle">Imported by </span><strong>143</strong>
      </a>
      <span class="go-textSubtle">|</span>
      <span class="go-textSubtle">
      <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span>
      </span>
      <span class="go-textSubtle">|</span>
      <span data-test-id="snippet-license">
      <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses">
      MIT
      </a>
      </span>
   </div>
</div>

쿼리 결과를 나타내는 HTML 구조의 일부입니다.

그런 다음 SearchSnippet 클래스가 있는 HTML의 모든 div 요소를 찾는 선택기 "패키지"가 필요합니다. 해당 요소에서 " name”h2 요소 내에서 a 요소의 텍스트와 선택기 “path” a 요소의 href 속성 값을 사용합니다. h2 요소입니다. 즉, "name"은 Go 패키지의 이름을 사용하고 "path"는 패키지 경로를 사용합니다 :)

{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}
    방법:
  • 은 HTTP 방법(GET, POST, PUT, ...)을 지정합니다.
  • url:
  • 요청 URL
  • timeout:
  • HTTP 요청에 대한 시간 제한(밀리초)입니다.
  • 선택자:
  • 선택자.
      “패키지”
    • :는 선택기의 이름입니다.
        expr:
      • 선택자 표현식
      • all:
      • 은 표현식과 일치하는 모든 요소를 ​​찾도록 지정합니다.
      • 유형:
      • 표현식의 유형(이 경우 CSS 선택기)
      • 선택자:
      • 중첩된 선택자입니다.
          “이름”
        • “경로”는 선택기의 이름이고 해당 값은 표현식(이 경우 XPath 표현식)입니다.
Go의 코드

scraper.go 파일을 만들고, 필요한 패키지를 가져오고, 주요 기능을 정의할 준비가 되었습니다.


package main

import (
    "encoding/json"
    "fmt"

    "github.com/gonzxlez/colibri"
    "github.com/gonzxlez/colibri/webextractor"
)

var rawRules = `{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}`

func main() {
    we, err := webextractor.New()
    if err != nil {
        panic(err)
    }

    var rules colibri.Rules
    err = json.Unmarshal([]byte(rawRules), &rules)
    if err != nil {
        panic(err)
    }

    output, err := we.Extract(&rules)
    if err != nil {
        panic(err)
    }

    fmt.Println("URL:", output.Response.URL())
    fmt.Println("Status code:", output.Response.StatusCode())
    fmt.Println("Content-Type", output.Response.Header().Get("Content-Type"))
    fmt.Println("Data:", output.Data)
}
? WebExtractor는 웹에서 데이터를 크롤링하거나 추출할 수 있는 Colibri의 기본 인터페이스입니다.

webextractor의 새로운 기능을 사용하여 데이터 추출을 시작하는 데 필요한 Colibri 구조를 생성합니다.

그런 다음 JSON의 규칙을 Rules 구조로 변환하고 규칙을 인수로 보내는 Extract 메소드를 호출합니다.

HTTP 응답의 출력과 URL, HTTP 상태 코드, 응답의 콘텐츠 유형 및 선택기로 추출된 데이터를 화면에 인쇄합니다. 출력 구조 문서를 참조하세요.

다음 명령을 실행합니다.


go mod tidy
? go mod tidy 명령은 go.mod의 종속성이 모듈 소스 코드와 일치하는지 확인합니다.

마지막으로 다음 명령을 사용하여 Go에서 코드를 컴파일하고 실행합니다.


go run scraper.go
결론

이 게시물에서는 Colibri 패키지를 사용하여 Go에서 웹 스크래핑을 수행하고 CSS 및 XPath 선택기로 추출 규칙을 정의하는 방법을 배웠습니다. Colibri는 Go에서 웹 데이터 수집을 자동화하려는 사람들을 위한 도구로 등장합니다. 규칙 기반 접근 방식과 사용 용이성은 모든 경험 수준의 개발자에게 매력적인 옵션입니다.

간단히 말하면 Go의 Web Scraping은 다양한 웹사이트에서 정보를 추출하는 데 사용할 수 있는 강력하고 다재다능한 기술입니다. 웹 스크래핑은 웹사이트의 이용 약관을 존중하고 서버 과부하를 피하면서 윤리적으로 수행되어야 한다는 점을 강조하는 것이 중요합니다.

위 내용은 웹 스크래핑 시작의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
GO 인터페이스로 어설 션 및 유형 스위치를 입력하십시오GO 인터페이스로 어설 션 및 유형 스위치를 입력하십시오May 02, 2025 am 12:20 AM

gohandlesinterfacesandtypeassertionsefectively, codeflexibleandrobustness.1) typeSertionsOncaLownallowRuntImeTypeChecking, asseengehapeInterfaceAndCircLetype.2) TypeStwitchEshandleMultipleTypesePesePesePesePesePese -pervariousShapesimplementing Gry

오류를 사용하고 오류가 발생합니다. 오류 검사는 이동 중입니다오류를 사용하고 오류가 발생합니다. 오류 검사는 이동 중입니다May 02, 2025 am 12:11 AM

GO 언어 오류 처리는 오류와 오류를 통해 더욱 유연하고 읽을 수 있습니다. 1.Errors.is는 오류가 지정된 오류와 동일한 지 확인하는 데 사용되며 오류 체인의 처리에 적합합니다. 2. 오류. 오류 유형을 확인할 수있을뿐만 아니라 오류를 특정 유형으로 변환 할 수 있으며 오류 정보 추출에 편리합니다. 이러한 기능을 사용하면 오류 처리 로직을 단순화 할 수 있지만 오류 체인의 올바른 전달에주의를 기울이고 코드 복잡성을 방지하기 위해 과도한 의존성을 피하십시오.

GO의 성능 튜닝 : 응용 프로그램 최적화GO의 성능 튜닝 : 응용 프로그램 최적화May 02, 2025 am 12:06 AM

TomakeGoApplicationSRUNFASTERONDERFISTING, 사용 프로파일 링 툴, leverageConcurrency, andManageMemoryEffice.1) usepprofforcpuandMemoryProfingToIndifyBottLenecks.2) UtizeGoroutinesandChannelStoparAllelizetAskSandimProvePercormance.3) 3)

Go의 미래 : 트렌드와 발전Go의 미래 : 트렌드와 발전May 02, 2025 am 12:01 AM

GO'SFUTUREISBRIGHTWITHTRENTRENDIMPROVENTTOOLING, 제네릭, 클라우드-나비 탑 션, 퍼포먼스 엔지니즘 및 WebassemBlyIntegration, butchAllEngesIncludEmainingSimplicityAndIndimprovingErrorHandling.

Goroutines 이해 : Go의 동시성에 대한 깊은 다이빙Goroutines 이해 : Go의 동시성에 대한 깊은 다이빙May 01, 2025 am 12:18 AM

GOROUTINESAREFUCTIONSORMETHODSTRUCHURNINGINGONO, ENABLEGINGEFICENDSTRUCHERTHENCERENCY.1) thearManagedBy 'sruntimeusingmultiplexing, 2) GoroutinesImprovePperformanceSytaskParallelizationAndeff

GO의 초기 기능 이해 : 목적 및 사용GO의 초기 기능 이해 : 목적 및 사용May 01, 2025 am 12:16 AM

theinitfunctioningoistoinitializevariable, setupconfigurations, orperformnecessarysetupbeforethemainfunecutes.useinitecutes.useinitby : 1) placingItinyOUrCodetorUnaUtomalityBeforeMain, 2) KAIGITSHORTANDFOCUSEDONSIMPLETASKS, 3)

GO 인터페이스 이해 : 포괄적 인 가이드GO 인터페이스 이해 : 포괄적 인 가이드May 01, 2025 am 12:13 AM

grointerfacesaremethodsignatures thattypesmustimplement, modularCode를 통해 polymorphism, modularCode.theyareimply에 만족하고, 유용한 ortoflexeApisandDecoupling, butrequeRecarefulusetoavoidRuntimeErrorsAndeAntorsAntafeTeAfer.

GO에서 패닉에서 회복 : 복구 ()를 언제 그리고 어떻게 사용하는지 ()GO에서 패닉에서 회복 : 복구 ()를 언제 그리고 어떻게 사용하는지 ()May 01, 2025 am 12:04 AM

PANIC에서 복구로 이동하는 복구 () 함수를 사용하십시오. 구체적인 방법은 다음과 같습니다. 1) reygre ()를 사용하여 프로그램 충돌을 피하기 위해 연기 기능에서 공황을 포착하십시오. 2) 디버깅에 대한 자세한 오류 정보를 기록합니다. 3) 특정 상황에 따라 프로그램 실행을 재개할지 여부를 결정합니다. 4) 성능에 영향을 미치지 않도록주의해서 사용하십시오.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.