首頁  >  文章  >  後端開發  >  刮刀競爭對手

刮刀競爭對手

Barbara Streisand
Barbara Streisand原創
2024-11-06 15:21:03930瀏覽

Scrapper Concorrente

計劃目標

同時造訪網頁,擷取每個頁面的標題,並將這些標題顯示在終端機中。這是使用 Go 中的並發性完成的,它允許您同時訪問多個頁面,從而節省時間。

守則解釋

使用的包

import (
    "fmt"
    "net/http"
    "sync"
    "github.com/PuerkitoBio/goquery"
)

取得標題函數

角色負責:

  • 訪問網頁(url)
  • 提取頁面標題
  • 將結果轉移到通道
func fetchTitle(url string, wg *sync.WaitGroup, results chan<- string) {
    defer wg.Done() // Marca a goroutine como concluída no WaitGroup

函數參數:

  • url string: 代表我們要存取取得標題的網頁位址(url)
  • wg *sync.WaitGroup:指向 WaitGroup 的指針,我們用它來同步同時執行的所有任務(goroutines)的完成。 * 表示我們正在向 WaitGroup` 傳遞一個“地址”,而不是它的副本。
  • results chan

defer wg.Done() 行告訴程式在 fetchTitle 函數完成時將此任務(goroutine)標記為已完成。這很重要,以便 main 知道所有任務何時完成。

HTTP請求


請求,錯誤:= http.Get(url)
if err != nil {
結果 返回
}
延遲 req.Body.Close()

  • http.Get(url):此行向 URL 發出 HTTP GET 請求。這意味著我們正在訪問該頁面並向伺服器詢問其內容。
  • err != nil:這裡我們檢查造訪頁面時是否有錯誤(例如頁面不存在或伺服器沒有回應)。如果發生錯誤,我們會向結果通道發送訊息,並以 return 結束函數。
  • defer req.Body.Close():這確保我們使用完頁面內容後,釋放分配來儲存它的記憶體。

狀態檢查


if req.StatusCode != 200 {
results 返回
}

  • req.StatusCode != 200:我們檢查伺服器是否回應代碼 200 OK(表示成功)。如果不是 200,則表示頁面未正確載入。然後我們向結果通道發送錯誤訊息並終止函數。

標題加載和搜尋


doc, err := goquery.NewDocumentFromReader(req.Body)
if err != nil {
results 返回
}
標題 := doc.Find("標題").Text()
結果 }

  • goquery.NewDocumentFromReader(req.Body):我們將頁面的 HTML 內容(由 req.Body 提供)載入到 goquery 中,它允許您導航和搜尋 HTML 的特定部分。
  • doc.Find("title").Text(): 我們尋找標籤 ;在頁面的 HTML 中並取得其中的文字(即標題)。
  • results :我們將提取的標題發送到結果通道,稍後將在其中讀取。

主要功能

main函數是設定和控製程式的主函數。


func main() {
url := []字串{
"http://olos.novagne.com.br/Olos/login.aspx?logout=true",
“http://sistema.novagne.com.br/novagne/”,
}

  • urls := []string{...}:我們定義要處理的 URL 清單。每個 URL 將傳遞到一個 goroutine,該 goroutine 將提取頁面標題。

WaitGroup 和通道配置


var wgsync.WaitGroup
results := make(chan string, len(urls)) // 儲存結果的通道

  • var wgsync.WaitGroup:我們建立一個新的 WaitGroup 實例,它將控制 goroutine 的數量並確保它們在程式結束之前全部完成。
  • results := make(chan string, len(urls)):我們建立一個容量等於 URL 數量的結果通道。該通道將儲存帶有標題或錯誤的訊息。

Goroutines 之家


對於 _, url := 範圍 url {
wg.Add(1)
去 fetchTitle(url, &wg, 結果)
}

  • for _, url := range urls:這裡我們循環遍歷清單中的每個 URL。
  • wg.Add(1):對於每個 URL,我們遞增 WaitGroup 計數器以指示將啟動一個新任務(goroutine)。
  • go fetchTitle(url, &wg, results):我們將 fetchTitle 稱為每個 URL 的 goroutine,也就是說,我們讓它與其他 URL 並行運作。

等待並顯示結果


wg.Wait()
關閉(結果)


回購:https://github.com/ionnss/Scrapper-GoRoutine


離子,

又一個地球日

以上是刮刀競爭對手的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn