첫 번째 단계
먼저 Go가 설치되어 있어야 합니다. Go를 다운로드하고 설치하는 방법은 다음과 같습니다.
프로젝트를 위한 새 폴더를 생성하고 해당 디렉토리로 이동한 후 다음 명령을 실행합니다.
go mod init scraper
? go mod init 명령은 실행되는 디렉토리에서 새 Go 모듈을 초기화하고 코드 종속성을 추적하기 위해 go.mod 파일을 생성하는 데 사용됩니다. 종속성 관리
이제 Colibri를 설치해 보겠습니다.
go get github.com/gonzxlez/colibri
? Colibri는 JSON에 정의된 일련의 규칙을 사용하여 웹에서 구조화된 데이터를 크롤링하고 추출할 수 있게 해주는 Go 패키지입니다. 저장소
추출 규칙
콜리브리가 필요한 데이터를 추출하는 데 사용할 규칙을 정의합니다. 문서
Go 패키지의 xpath와 관련된 Go 패키지에 대한 쿼리 결과가 포함된 URL https://pkg.go.dev/search?q=xpath에 HTTP 요청을 보내겠습니다.
웹 브라우저에 포함된 개발 도구를 사용하여 페이지의 HTML 구조를 검사할 수 있습니다. 브라우저 개발 도구는 무엇인가요?
<div class="SearchSnippet"> <div class="SearchSnippet-headerContainer"> <h2> <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title"> xpath <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span> </a> </h2> </div> <div class="SearchSnippet-infoLabel"> <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By"> <span class="go-textSubtle">Imported by </span><strong>143</strong> </a> <span class="go-textSubtle">|</span> <span class="go-textSubtle"> <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span> </span> <span class="go-textSubtle">|</span> <span data-test-id="snippet-license"> <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses"> MIT </a> </span> </div> </div>
쿼리 결과를 나타내는 HTML 구조의 일부입니다.
그런 다음 SearchSnippet 클래스가 있는 HTML의 모든 div 요소를 찾는 선택기 "패키지"가 필요합니다. 해당 요소에서 " name”은 h2 요소 내에서 a 요소의 텍스트와 선택기 “path” 는 내 a 요소의 href 속성 값을 사용합니다. h2 요소입니다. 즉, "name"은 Go 패키지의 이름을 사용하고 "path"는 패키지 경로를 사용합니다 :)
{ "method": "GET", "url": "https://pkg.go.dev/search?q=xpath", "timeout": 10000, "selectors": { "packages": { "expr": "div.SearchSnippet", "all": true, "type": "css", "selectors": { "name": "//h2/a/text()", "path": "//h2/a/@href" } } } }
- 방법:
- 은 HTTP 방법(GET, POST, PUT, ...)을 지정합니다. url:
- 요청 URL timeout:
- HTTP 요청에 대한 시간 제한(밀리초)입니다. 선택자:
- 선택자.
- “패키지”
-
:는 선택기의 이름입니다.
- expr:
- 선택자 표현식 all:
- 은 표현식과 일치하는 모든 요소를 찾도록 지정합니다. 유형:
- 표현식의 유형(이 경우 CSS 선택기) 선택자:
- 중첩된 선택자입니다.
- “이름”
- 및 “경로”는 선택기의 이름이고 해당 값은 표현식(이 경우 XPath 표현식)입니다.
-
:는 선택기의 이름입니다.
scraper.go 파일을 만들고, 필요한 패키지를 가져오고, 주요 기능을 정의할 준비가 되었습니다.
package main import ( "encoding/json" "fmt" "github.com/gonzxlez/colibri" "github.com/gonzxlez/colibri/webextractor" ) var rawRules = `{ "method": "GET", "url": "https://pkg.go.dev/search?q=xpath", "timeout": 10000, "selectors": { "packages": { "expr": "div.SearchSnippet", "all": true, "type": "css", "selectors": { "name": "//h2/a/text()", "path": "//h2/a/@href" } } } }` func main() { we, err := webextractor.New() if err != nil { panic(err) } var rules colibri.Rules err = json.Unmarshal([]byte(rawRules), &rules) if err != nil { panic(err) } output, err := we.Extract(&rules) if err != nil { panic(err) } fmt.Println("URL:", output.Response.URL()) fmt.Println("Status code:", output.Response.StatusCode()) fmt.Println("Content-Type", output.Response.Header().Get("Content-Type")) fmt.Println("Data:", output.Data) }? WebExtractor는 웹에서 데이터를 크롤링하거나 추출할 수 있는 Colibri의 기본 인터페이스입니다.
webextractor의 새로운 기능을 사용하여 데이터 추출을 시작하는 데 필요한 Colibri 구조를 생성합니다.
그런 다음 JSON의 규칙을 Rules 구조로 변환하고 규칙을 인수로 보내는 Extract 메소드를 호출합니다.
HTTP 응답의 출력과 URL, HTTP 상태 코드, 응답의 콘텐츠 유형 및 선택기로 추출된 데이터를 화면에 인쇄합니다. 출력 구조 문서를 참조하세요.
다음 명령을 실행합니다.
go mod tidy? go mod tidy 명령은 go.mod의 종속성이 모듈 소스 코드와 일치하는지 확인합니다.
마지막으로 다음 명령을 사용하여 Go에서 코드를 컴파일하고 실행합니다.
go run scraper.go결론
이 게시물에서는 Colibri 패키지를 사용하여 Go에서 웹 스크래핑을 수행하고 CSS 및 XPath 선택기로 추출 규칙을 정의하는 방법을 배웠습니다. Colibri는 Go에서 웹 데이터 수집을 자동화하려는 사람들을 위한 도구로 등장합니다. 규칙 기반 접근 방식과 사용 용이성은 모든 경험 수준의 개발자에게 매력적인 옵션입니다.
간단히 말하면 Go의 Web Scraping은 다양한 웹사이트에서 정보를 추출하는 데 사용할 수 있는 강력하고 다재다능한 기술입니다. 웹 스크래핑은 웹사이트의 이용 약관을 존중하고 서버 과부하를 피하면서 윤리적으로 수행되어야 한다는 점을 강조하는 것이 중요합니다.
위 내용은 웹 스크래핑 시작의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

gohandlesinterfacesandtypeassertionsefectively, codeflexibleandrobustness.1) typeSertionsOncaLownallowRuntImeTypeChecking, asseengehapeInterfaceAndCircLetype.2) TypeStwitchEshandleMultipleTypesePesePesePesePesePese -pervariousShapesimplementing Gry

GO 언어 오류 처리는 오류와 오류를 통해 더욱 유연하고 읽을 수 있습니다. 1.Errors.is는 오류가 지정된 오류와 동일한 지 확인하는 데 사용되며 오류 체인의 처리에 적합합니다. 2. 오류. 오류 유형을 확인할 수있을뿐만 아니라 오류를 특정 유형으로 변환 할 수 있으며 오류 정보 추출에 편리합니다. 이러한 기능을 사용하면 오류 처리 로직을 단순화 할 수 있지만 오류 체인의 올바른 전달에주의를 기울이고 코드 복잡성을 방지하기 위해 과도한 의존성을 피하십시오.

TomakeGoApplicationSRUNFASTERONDERFISTING, 사용 프로파일 링 툴, leverageConcurrency, andManageMemoryEffice.1) usepprofforcpuandMemoryProfingToIndifyBottLenecks.2) UtizeGoroutinesandChannelStoparAllelizetAskSandimProvePercormance.3) 3)

GO'SFUTUREISBRIGHTWITHTRENTRENDIMPROVENTTOOLING, 제네릭, 클라우드-나비 탑 션, 퍼포먼스 엔지니즘 및 WebassemBlyIntegration, butchAllEngesIncludEmainingSimplicityAndIndimprovingErrorHandling.

GOROUTINESAREFUCTIONSORMETHODSTRUCHURNINGINGONO, ENABLEGINGEFICENDSTRUCHERTHENCERENCY.1) thearManagedBy 'sruntimeusingmultiplexing, 2) GoroutinesImprovePperformanceSytaskParallelizationAndeff

theinitfunctioningoistoinitializevariable, setupconfigurations, orperformnecessarysetupbeforethemainfunecutes.useinitecutes.useinitby : 1) placingItinyOUrCodetorUnaUtomalityBeforeMain, 2) KAIGITSHORTANDFOCUSEDONSIMPLETASKS, 3)

grointerfacesaremethodsignatures thattypesmustimplement, modularCode를 통해 polymorphism, modularCode.theyareimply에 만족하고, 유용한 ortoflexeApisandDecoupling, butrequeRecarefulusetoavoidRuntimeErrorsAndeAntorsAntafeTeAfer.

PANIC에서 복구로 이동하는 복구 () 함수를 사용하십시오. 구체적인 방법은 다음과 같습니다. 1) reygre ()를 사용하여 프로그램 충돌을 피하기 위해 연기 기능에서 공황을 포착하십시오. 2) 디버깅에 대한 자세한 오류 정보를 기록합니다. 3) 특정 상황에 따라 프로그램 실행을 재개할지 여부를 결정합니다. 4) 성능에 영향을 미치지 않도록주의해서 사용하십시오.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.
