Golang クローラーの書き方-Golang-php.cn

ホームページ

バックエンド開発

Golang

Golang クローラーの書き方

王林

May 10, 2023 am 11:12 AM

Golang は、効率的で同時実行可能な Web クローラーの作成に適した最新のプログラミング言語です。 Golang の高い同時実行機能によりクロールが大幅に高速化され、その構文は簡潔で学習と理解が容易です。この記事では、Golangを使った簡単なWebクローラーの書き方を詳しく紹介します。

Golang のインストール

まず、Golang をインストールする必要があります。公式 Web サイト (https://golang.org/dl/) から、対応するオペレーティングシステムのバイナリファイルをダウンロードしてインストールできます。インストール後、環境変数を設定する必要があります。 Linux および Mac では、~/.bashrc ファイルを編集して、ファイルの最後に次の行を追加できます:

export GOPATH=$HOME/go
export PATH=$PATH:$GOPATH/ bin

Windows では、環境変数を編集し、GOPATH を環境変数に追加し、%GOPATH% を PATH に追加できます。

Go Modules を使用して依存関係を管理する

Golang 1.13 以降では、Go Modules が公式の依存関係管理ツールとして正式に認められています。これを使用してプロジェクトの依存関係を管理できます。プロジェクトのルートディレクトリを入力し、次のコマンドを実行します。

go mod init Spider

は、スパイダープロジェクトに関する情報を含む go.mod ファイルを作成します。

HTTP クライアントの構築

HTTP クライアントを作成するには、Golang に付属の net/http パッケージを使用する必要があります。このパッケージは、HTTP リクエストとレスポンスの解析を含む、HTTP プロトコルの詳細をすべて実装します。

まず、新しい HTTP クライアントを作成します。

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

}

このクライアントを使用して HTTP GET リクエストを送信します:

func fetch(url string) (string, error) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

}

fetch 関数は、要求された Web を返します。ページのコンテンツとエラー。 defer キーワードを使用して、関数が返されたときに応答本文が確実に閉じられるようにします。

HTML の解析

Web ページのソースコードを正常に取得したら、HTML を解析して必要な情報を取得する必要があります。 Go 言語の標準パッケージである html/template (HTML テンプレート) と html/parse (HTML パーサー) を使用できます。

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

}

html.Parse 関数を使用して HTML ソースコードを解析し、ツリー構造として返すことができます。このツリー構造を再帰的にたどることで、必要な情報を取得できます。

正規表現の使用

URL リンクやテキストなど、HTML ソースコードから特定の情報を抽出する必要がある場合があります。この場合、正規表現を使用できます。 Golang は正規表現を非常に適切にサポートしており、正規表現を実装するために regexp パッケージを使用できます。

たとえば、HTML ソースコードからすべての a タグのリンクを抽出する必要がある場合は、次のコードを使用できます:

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

}

正規表現href="(.*?)" すべてのリンクと一致し、文字列配列を返します。

完全なコード

以下は、Web サイトページ上のすべてのタグリンクを取得する完全なクローラーコードです:

package main

import (

"fmt"
"log"
"net/http"
"regexp"
"strings"
"time"

"golang.org/x/net/html"

)

const (

url = "https://example.com"

)

func main() {

htmlContent, err := fetch(url)
if err != nil {
    log.Fatal(err)
}
links := extractLinks(htmlContent)
for _, link := range links {
    fmt.Println(link)
}

}

func newHTTPClient(タイムアウト時間.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

}

func fetch(url string) (string, error) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

}

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

}

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

}

概要

Golang を使用して Web クローラーを作成すると、クロール速度が大幅に向上します。また、Golang のような強力な言語を使用してクローラーコードを作成すると、より高い保守性とスケーラビリティを実現できます。この記事では、Golang を使用して簡単なクローラーを作成する方法について説明します。この記事が、Web クローラーを学習したい読者や Golang を使用する開発者に役立つことを願っています。

以上がGolang クローラーの書き方の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Golang vs. C：コードの例とパフォーマンス分析Apr 15, 2025 am 12:03 AM

Golangは迅速な発展と同時プログラミングに適していますが、Cは極端なパフォーマンスと基礎となる制御を必要とするプロジェクトにより適しています。 1）Golangの並行性モデルは、GoroutineとChannelを介した同時性プログラミングを簡素化します。 2）Cのテンプレートプログラミングは、一般的なコードとパフォーマンスの最適化を提供します。 3）Golangのごみ収集は便利ですが、パフォーマンスに影響を与える可能性があります。 Cのメモリ管理は複雑ですが、コントロールは問題ありません。

Golangの影響：速度、効率、シンプルさApr 14, 2025 am 12:11 AM

speed、効率、およびシンプル性をspeedsped.1）speed：gocompilesquilesquicklyandrunseffictient、理想的なlargeprojects.2）効率：等系dribribraryreducesexexternaldedenciess、開発効果を高める3）シンプルさ：

CとGolang：パフォーマンスが重要な場合Apr 13, 2025 am 12:11 AM

Cは、ハードウェアリソースと高性能の最適化が必要なシナリオにより適していますが、Golangは迅速な開発と高い並行性処理が必要なシナリオにより適しています。 1.Cの利点は、ハードウェア特性と高い最適化機能に近いものにあります。これは、ゲーム開発などの高性能ニーズに適しています。 2.Golangの利点は、その簡潔な構文と自然な並行性サポートにあり、これは高い並行性サービス開発に適しています。

Golang in Action：実際の例とアプリケーションApr 12, 2025 am 12:11 AM

Golangは実際のアプリケーションに優れており、そのシンプルさ、効率性、並行性で知られています。 1）同時プログラミングはゴルチンとチャネルを通じて実装されます。2）柔軟なコードは、インターフェイスと多型を使用して記述されます。3）ネット/HTTPパッケージを使用したネットワークプログラミングを簡素化、4）効率的な同時クローラーを構築する、5）ツールと最高の実践を通じてデバッグと最適化。

Golang：Goプログラミング言語が説明しましたApr 10, 2025 am 11:18 AM

GOのコア機能には、ガベージコレクション、静的リンク、並行性サポートが含まれます。 1. GO言語の並行性モデルは、GoroutineとChannelを通じて効率的な同時プログラミングを実現します。 2.インターフェイスと多型は、インターフェイスメソッドを介して実装されているため、異なるタイプを統一された方法で処理できます。 3.基本的な使用法は、関数定義と呼び出しの効率を示しています。 4。高度な使用法では、スライスは動的なサイズ変更の強力な機能を提供します。 5.人種条件などの一般的なエラーは、Getest Raceを通じて検出および解決できます。 6.パフォーマンス最適化Sync.Poolを通じてオブジェクトを再利用して、ゴミ収集圧力を軽減します。

Golangの目的：効率的でスケーラブルなシステムの構築Apr 09, 2025 pm 05:17 PM

GO言語は、効率的でスケーラブルなシステムの構築においてうまく機能します。その利点には次のものがあります。1。高性能：マシンコードにコンパイルされ、速度速度が速い。 2。同時プログラミング：ゴルチンとチャネルを介してマルチタスクを簡素化します。 3。シンプルさ：簡潔な構文、学習コストとメンテナンスコストの削減。 4。クロスプラットフォーム：クロスプラットフォームのコンパイル、簡単な展開をサポートします。