搜尋
首頁後端開發Golang刮刀競爭對手

刮刀競爭對手

Nov 06, 2024 pm 03:21 PM

Scrapper Concorrente

計劃目標

同時造訪網頁,擷取每個頁面的標題,並將這些標題顯示在終端機中。這是使用 Go 中的並發性完成的,它允許您同時訪問多個頁面,從而節省時間。

守則解釋

使用的包

import (
    "fmt"
    "net/http"
    "sync"
    "github.com/PuerkitoBio/goquery"
)

取得標題函數

角色負責:

  • 訪問網頁(url)
  • 提取頁面標題
  • 將結果轉移到通道
func fetchTitle(url string, wg *sync.WaitGroup, results chan



<p>函數參數:</p>

  • url string: 代表我們要存取取得標題的網頁位址(url)
  • wg *sync.WaitGroup:指向 WaitGroup 的指針,我們用它來同步同時執行的所有任務(goroutines)的完成。 * 表示我們正在向 WaitGroup` 傳遞一個“地址”,而不是它的副本。
  • results chan

defer wg.Done() 行告訴程式在 fetchTitle 函數完成時將此任務(goroutine)標記為已完成。這很重要,以便 main 知道所有任務何時完成。

HTTP請求


請求,錯誤:= http.Get(url)
if err != nil {
結果 返回
}
延遲 req.Body.Close()

  • http.Get(url):此行向 URL 發出 HTTP GET 請求。這意味著我們正在訪問該頁面並向伺服器詢問其內容。
  • err != nil:這裡我們檢查造訪頁面時是否有錯誤(例如頁面不存在或伺服器沒有回應)。如果發生錯誤,我們會向結果通道發送訊息,並以 return 結束函數。
  • defer req.Body.Close():這確保我們使用完頁面內容後,釋放分配來儲存它的記憶體。

狀態檢查


if req.StatusCode != 200 {
results 返回
}

  • req.StatusCode != 200:我們檢查伺服器是否回應代碼 200 OK(表示成功)。如果不是 200,則表示頁面未正確載入。然後我們向結果通道發送錯誤訊息並終止函數。

標題加載和搜尋


doc, err := goquery.NewDocumentFromReader(req.Body)
if err != nil {
results 返回
}
標題 := doc.Find("標題").Text()
結果 }

  • goquery.NewDocumentFromReader(req.Body):我們將頁面的 HTML 內容(由 req.Body 提供)載入到 goquery 中,它允許您導航和搜尋 HTML 的特定部分。
  • doc.Find("title").Text(): 我們尋找標籤 ;在頁面的 HTML 中並取得其中的文字(即標題)。
  • results :我們將提取的標題發送到結果通道,稍後將在其中讀取。

主要功能

main函數是設定和控製程式的主函數。


func main() {
url := []字串{
"http://olos.novagne.com.br/Olos/login.aspx?logout=true",
“http://sistema.novagne.com.br/novagne/”,
}

  • urls := []string{...}:我們定義要處理的 URL 清單。每個 URL 將傳遞到一個 goroutine,該 goroutine 將提取頁面標題。

WaitGroup 和通道配置


var wgsync.WaitGroup
results := make(chan string, len(urls)) // 儲存結果的通道

  • var wgsync.WaitGroup:我們建立一個新的 WaitGroup 實例,它將控制 goroutine 的數量並確保它們在程式結束之前全部完成。
  • results := make(chan string, len(urls)):我們建立一個容量等於 URL 數量的結果通道。該通道將儲存帶有標題或錯誤的訊息。

Goroutines 之家


對於 _, url := 範圍 url {
wg.Add(1)
去 fetchTitle(url, &wg, 結果)
}

  • for _, url := range urls:這裡我們循環遍歷清單中的每個 URL。
  • wg.Add(1):對於每個 URL,我們遞增 WaitGroup 計數器以指示將啟動一個新任務(goroutine)。
  • go fetchTitle(url, &wg, results):我們將 fetchTitle 稱為每個 URL 的 goroutine,也就是說,我們讓它與其他 URL 並行運作。

等待並顯示結果


wg.Wait()
關閉(結果)


回購:https://github.com/ionnss/Scrapper-GoRoutine


離子,

又一個地球日

以上是刮刀競爭對手的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Golang和Python:了解差異Golang和Python:了解差異Apr 18, 2025 am 12:21 AM

Golang和Python的主要區別在於並發模型、類型系統、性能和執行速度。 1.Golang使用CSP模型,適用於高並發任務;Python依賴多線程和GIL,適合I/O密集型任務。 2.Golang是靜態類型,Python是動態類型。 3.Golang編譯型語言執行速度快,Python解釋型語言開發速度快。

Golang vs.C:評估速度差Golang vs.C:評估速度差Apr 18, 2025 am 12:20 AM

Golang通常比C 慢,但Golang在並發編程和開發效率上更具優勢:1)Golang的垃圾回收和並發模型使其在高並發場景下表現出色;2)C 通過手動內存管理和硬件優化獲得更高性能,但開發複雜度較高。

Golang:雲計算和DevOps的關鍵語言Golang:雲計算和DevOps的關鍵語言Apr 18, 2025 am 12:18 AM

Golang在雲計算和DevOps中的應用廣泛,其優勢在於簡單性、高效性和並發編程能力。 1)在雲計算中,Golang通過goroutine和channel機制高效處理並發請求。 2)在DevOps中,Golang的快速編譯和跨平台特性使其成為自動化工具的首選。

Golang和C:了解執行效率Golang和C:了解執行效率Apr 18, 2025 am 12:16 AM

Golang和C 在執行效率上的表現各有優勢。 1)Golang通過goroutine和垃圾回收提高效率,但可能引入暫停時間。 2)C 通過手動內存管理和優化實現高性能,但開發者需處理內存洩漏等問題。選擇時需考慮項目需求和團隊技術棧。

Golang vs. Python:並發和多線程Golang vs. Python:並發和多線程Apr 17, 2025 am 12:20 AM

Golang更適合高並發任務,而Python在靈活性上更有優勢。 1.Golang通過goroutine和channel高效處理並發。 2.Python依賴threading和asyncio,受GIL影響,但提供多種並發方式。選擇應基於具體需求。

Golang和C:性能的權衡Golang和C:性能的權衡Apr 17, 2025 am 12:18 AM

Golang和C 在性能上的差異主要體現在內存管理、編譯優化和運行時效率等方面。 1)Golang的垃圾回收機制方便但可能影響性能,2)C 的手動內存管理和編譯器優化在遞歸計算中表現更為高效。

Golang vs. Python:申請和用例Golang vs. Python:申請和用例Apr 17, 2025 am 12:17 AM

selectgolangforhighpperformanceandcorrency,ifealforBackendServicesSandNetwork程序; selectpypypythonforrapiddevelopment,dataScience和machinelearningDuetoitsverserverserverserversator versator anderticality andextility andextentensivelibraries。

Golang vs. Python:主要差異和相似之處Golang vs. Python:主要差異和相似之處Apr 17, 2025 am 12:15 AM

Golang和Python各有优势:Golang适合高性能和并发编程,Python适用于数据科学和Web开发。Golang以其并发模型和高效性能著称,Python则以简洁语法和丰富库生态系统著称。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。