搜尋
網頁抓取Sep 10, 2024 pm 02:30 PM

第一步

首先我們必須安裝Go,下載和安裝Go的說明。

我們為專案建立一個新資料夾,移動到該目錄並執行以下命令:

go mod init scraper

? go mod init 指令用於在運行目錄中初始化一個新的 Go 模組,並建立一個 go.mod 檔案來追蹤程式碼依賴關係。依賴管理

現在讓我們安裝 Colibri:

go get github.com/gonzxlez/colibri

? Colibri 是一個 Go 包,它允許我們使用 JSON 中定義的一組規則來抓取和提取網路上的結構化資料。儲存庫


提取規則

我們定義了 colibri 用於提取我們需要的資料的規則。文件

我們將向 URL https://pkg.go.dev/search?q=xpath 發出 HTTP 請求,其中包含與 Go Packages 中 xpath 相關的 Go 套件的查詢結果。

使用網頁瀏覽器中包含的開發工具,我們可以檢查頁面的 HTML 結構。瀏覽器開發工具有哪些?

Web Scraping en Go

<div class="SearchSnippet">
   <div class="SearchSnippet-headerContainer">
      <h2>
         <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title">
         xpath
         <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span>
         </a>
      </h2>
   </div>
   <div class="SearchSnippet-infoLabel">
      <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By">
      <span class="go-textSubtle">Imported by </span><strong>143</strong>
      </a>
      <span class="go-textSubtle">|</span>
      <span class="go-textSubtle">
      <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span>
      </span>
      <span class="go-textSubtle">|</span>
      <span data-test-id="snippet-license">
      <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses">
      MIT
      </a>
      </span>
   </div>
</div>

表示查詢結果的 HTML 結構片段。

然後我們需要一個選擇器「packages」,它將在HTML 中尋找類別SearchSnippet 類別的所有div 元素,從這些元素中選擇一個選擇器「 name」 將採用元素h2 內元素a 的文字和選擇器「path” 將採用a 元素的href 元素的href > 元素。換句話說,「名稱」
將採用Go包的名稱,「

路徑」
{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}
將採用包的路徑:)
  • method: 指定 HTTP 方法(GET、POST、PUT...)。
  • url: 請求的 URL。
  • 逾時: HTTP 請求的逾時(以毫秒為單位)。
    • 選擇器:選擇器。 「packages」
      • : 是選擇器的名稱。
      • expr: 選擇器表達式。
      • all: 指定所有應找到與表達式相符的元素。
      • type: 表達式的類型,在本例中為 CSS 選擇器。
        • 選擇器:巢狀選擇器。 “name”
        “path”
      • 是選擇器的名稱,它們的值是表達式,在本例中是 XPath 表達式。


Go 中的程式碼

package main

import (
    "encoding/json"
    "fmt"

    "github.com/gonzxlez/colibri"
    "github.com/gonzxlez/colibri/webextractor"
)

var rawRules = `{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}`

func main() {
    we, err := webextractor.New()
    if err != nil {
        panic(err)
    }

    var rules colibri.Rules
    err = json.Unmarshal([]byte(rawRules), &rules)
    if err != nil {
        panic(err)
    }

    output, err := we.Extract(&rules)
    if err != nil {
        panic(err)
    }

    fmt.Println("URL:", output.Response.URL())
    fmt.Println("Status code:", output.Response.StatusCode())
    fmt.Println("Content-Type", output.Response.Header().Get("Content-Type"))
    fmt.Println("Data:", output.Data)
}
我們準備建立 scraper.go 文件,導入必要的套件並定義主函數:

? WebExtractor 是 Colibri 的預設接口,可以開始在網路上抓取或提取資料。

使用 webextractor 的新功能,我們產生一個 Colibri 結構,其中包含開始提取資料所需的內容。

然後我們將 JSON 格式的規則轉換為 Rules 結構,並呼叫 Extract 方法將規則作為參數傳送。


我們獲得輸出,HTTP 回應的 URL、HTTP 狀態代碼、回應的內容類型以及使用選擇器提取的資料都列印在螢幕上。請參閱輸出結構的文件。

go mod tidy
我們執行以下指令:

? go mod tidy 指令確保 go.mod 中的依賴項與模組原始碼相符。

go run scraper.go
最後,我們使用以下命令在 Go 中編譯並執行程式碼:

結論

在這篇文章中,我們學習如何使用 Colibri 套件在 Go 中執行網頁抓取,使用 CSS 和 XPath 選擇器定義擷取規則。 Colibri 是為那些希望在 Go 中自動化 Web 資料收集的人提供的工具。其基於規則的方法和易用性使其成為所有經驗水平的開發人員的一個有吸引力的選擇。 簡而言之,Go 中的網頁抓取是一種強大且多功能的技術,可用於從各種網站中提取資訊。需要強調的是,網頁抓取必須符合道德規範,尊重網站的條款和條件,並避免伺服器超載。

以上是網頁抓取的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Go語言包導入:帶下劃線和不帶下劃線的區別是什麼?Go語言包導入:帶下劃線和不帶下劃線的區別是什麼?Mar 03, 2025 pm 05:17 PM

本文解釋了GO的軟件包導入機制:命名imports(例如導入“ fmt”)和空白導入(例如導入_ fmt; fmt;)。 命名導入使包裝內容可訪問,而空白導入僅執行t

Go語言中如何將MySQL查詢結果List轉換為自定義結構體切片?Go語言中如何將MySQL查詢結果List轉換為自定義結構體切片?Mar 03, 2025 pm 05:18 PM

本文詳細介紹了MySQL查詢結果的有效轉換為GO結構切片。 它強調使用數據庫/SQL的掃描方法來最佳性能,避免手動解析。 使用DB標籤和Robus的結構現場映射的最佳實踐

Beego框架中NewFlash()函數如何實現頁面間短暫信息傳遞?Beego框架中NewFlash()函數如何實現頁面間短暫信息傳遞?Mar 03, 2025 pm 05:22 PM

本文解釋了Beego的NewFlash()函數,用於Web應用程序中的頁間數據傳輸。 它專注於使用newflash()在控制器之間顯示臨時消息(成功,錯誤,警告),並利用會話機制。 Lima

如何定義GO中仿製藥的自定義類型約束?如何定義GO中仿製藥的自定義類型約束?Mar 10, 2025 pm 03:20 PM

本文探討了GO的仿製藥自定義類型約束。 它詳細介紹了界面如何定義通用功能的最低類型要求,從而改善了類型的安全性和代碼可重複使用性。 本文還討論了局限性和最佳實踐

如何編寫模擬對象和存根以進行測試?如何編寫模擬對象和存根以進行測試?Mar 10, 2025 pm 05:38 PM

本文演示了創建模擬和存根進行單元測試。 它強調使用接口,提供模擬實現的示例,並討論最佳實踐,例如保持模擬集中並使用斷言庫。 文章

Go語言如何便捷地寫入文件?Go語言如何便捷地寫入文件?Mar 03, 2025 pm 05:15 PM

本文詳細介紹了在GO中詳細介紹有效的文件,將OS.WriteFile(適用於小文件)與OS.openfile和緩衝寫入(最佳大型文件)進行比較。 它強調了使用延遲並檢查特定錯誤的可靠錯誤處理。

您如何在GO中編寫單元測試?您如何在GO中編寫單元測試?Mar 21, 2025 pm 06:34 PM

本文討論了GO中的編寫單元測試,涵蓋了最佳實踐,模擬技術和有效測試管理的工具。

如何使用跟踪工具了解GO應用程序的執行流?如何使用跟踪工具了解GO應用程序的執行流?Mar 10, 2025 pm 05:36 PM

本文使用跟踪工具探討了GO應用程序執行流。 它討論了手冊和自動儀器技術,比較諸如Jaeger,Zipkin和Opentelemetry之類的工具,並突出顯示有效的數據可視化

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。