ホームページ >バックエンド開発 >Golang >Golang を使用して Web クローラーを実装する方法

Golang を使用して Web クローラーを実装する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2023-06-24 09:17:051057ブラウズ

Web クローラーは、Web クローラーおよび Web スパイダーとも呼ばれ、インターネット上の情報をクロールするために使用される自動プログラムです。 Web クローラーを使用すると、大量のデータを取得し、そのデータを分析および処理できます。この記事では、Golang を使用して Web クローラーを実装する方法を紹介します。

1. Golang の概要
Golang は Go 言語としても知られ、Google によって開発され、2009 年にリリースされました。 Golang は、効率、信頼性、セキュリティ、シンプルさ、同時実行性などの機能を備えた、静的に型付けされたコンパイル言語です。 Golang の効率性とシンプルさにより、Web クローラーの実装に Golang を使用する人が増えています。

2. 実装手順

Golang のインストール
まず、ローカルコンピューターに Golang をインストールする必要があります。 Golang は、Golang 公式 Web サイト (https://golang.org/) からダウンロードしてインストールできます。
依存関係パッケージのインポート
Golang を使用して Web クローラーを実装する場合、「net/http」、「io/ioutil」、「regexp」などのサードパーティパッケージを使用する必要があります。パッケージ。これらのパッケージは go get コマンドを使用してインストールできます:
go get -u github.com/PuerkitoBio/goquery
go get -u golang.org/x/net/html
go get -u golang。 org /x/text/encoding/unicode
go get -u golang.org/x/text/transform

その中で、「goquery」パッケージは HTML ドキュメントの解析に使用されます。 "html" パッケージが使用されます。特定の HTML ドキュメントパーサーの場合、エンコーディングの解析には "unicode" パッケージが使用され、エンコーディングの変換には "transform" パッケージが使用されます。

ターゲット Web サイトとクロールする必要がある情報を決定する
Web クローラーを実装する前に、ターゲット Web サイトとクロールする必要がある情報を決定する必要があります。 Douban 映画を例に挙げると、クロールする必要がある情報には、映画の名前、評価、コメントが含まれます。
HTML ドキュメントの解析
GoQuery パッケージを使用して HTML ドキュメントを解析し、http GET メソッドを使用してターゲット Web サイトから HTML ドキュメントを取得し、GoQuery パッケージを使用して HTML ドキュメント内の情報を解析します。。以下は、HTML ドキュメントを解析するコードです:

resp, err := http.Get(url)
if err != nil {
log.Fatal(err)
}
defer resp.Body.Close()
doc, err := goquery.NewDocumentFromReader(resp.Body)

Extract information from HTML ドキュメントから必要な情報を抽出します。情報を抽出するコードは次のとおりです。

doc.Find(".hd").Each(func(i int, s *goquery.Selection) {

title := s. Find( "span.title").Text()
評価 := s.Find("span.rated_num").Text()
コメント := s.Find("span.inq").Text ()
})

抽出した情報をデータファイルまたはデータベースに保存します。情報を CSV ファイルに保存するコードは次のとおりです:

f, err := os.Create("movies.csv")

if err != nil {
log . Fatal(err)
}
defer f.Close()
w := csv.NewWriter(f)
w.Write([]string{"タイトル", "評価", "コメント "})
for i := 0; i レコード := []string{タイトル[i]、評価[i]、コメント[i]}
w.Write(record)
}
w.Flush()

import (

"encoding/csv"
"github.com/PuerkitoBio/goquery"
"log"
"net/http"
"os"
"regexp"
)
func クロール(URL 文字列) {
resp, err := http.Get(url)
if err != nil {

  log.Fatal(err)

}

defer resp.Body.Close()
doc, err : = goquery.NewDocumentFromReader(resp.Body)
if err != nil {

  log.Fatal(err)

}

titles := []string{}

ratings := []string{ }
コメント := []string{}
re := regexp.MustCompile(
s ) doc.Find(".hd").Each(func(i int, s *goquery.Selection) {

  title := s.Find("span.title").Text()
  title = re.ReplaceAllString(title, "")
  rating := s.Find("span.rating_num").Text()
  comment := s.Find("span.inq").Text()
  titles = append(titles, title)
  ratings = append(ratings, rating)
  comments = append(comments, comment)

})

f, err := os.Create("movies.csv")
if err != nil {

  log.Fatal(err)

}

defer f.Close()
w := csv.NewWriter(f)
w.Write([]string{"title", "評価", "コメント"})
for i := 0; i < len(titles); i {

  record := []string{titles[i], ratings[i], comments[i]}
  w.Write(record)

}

w.Flush()
}

Golang を使用するWeb クローラーを実装するには、HTML ドキュメントの解析、正規表現の使用、ファイル操作など、特定のプログラミング知識を習得する必要があります。この記事で紹介する手順に従って Web クローラーを実装すると、対象の Web サイトの情報を取得し、その情報をローカルコンピューターに保存できます。

以上がGolang を使用して Web クローラーを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

golang css 正则表达式 html String if for int Go语言 len nil 并发 regexp 选择器 transform github 数据库 http https 自动化

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：golang で正規表現を使用して URL アドレスが第 6 レベルのドメイン名であるかどうかを確認する方法次の記事：golang で正規表現を使用して URL アドレスが第 6 レベルのドメイン名であるかどうかを確認する方法

続きを見る