検索
ホームページバックエンド開発GolangGolang クローラーの書き方

Golang は、効率的で同時実行可能な Web クローラーの作成に適した最新のプログラミング言語です。 Golang の高い同時実行機能によりクロールが大幅に高速化され、その構文は簡潔で学習と理解が容易です。この記事では、Golangを使った簡単なWebクローラーの書き方を詳しく紹介します。

  1. Golang のインストール

まず、Golang をインストールする必要があります。公式 Web サイト (https://golang.org/dl/) から、対応するオペレーティング システムのバイナリ ファイルをダウンロードしてインストールできます。インストール後、環境変数を設定する必要があります。 Linux および Mac では、~/.bashrc ファイルを編集して、ファイルの最後に次の行を追加できます:

export GOPATH=$HOME/go
export PATH=$PATH:$GOPATH/ bin

Windows では、環境変数を編集し、GOPATH を環境変数に追加し、%GOPATH% を PATH に追加できます。

  1. Go Modules を使用して依存関係を管理する

Golang 1.13 以降では、Go Modules が公式の依存関係管理ツールとして正式に認められています。これを使用してプロジェクトの依存関係を管理できます。プロジェクトのルート ディレクトリを入力し、次のコマンドを実行します。

go mod init Spider

は、スパイダー プロジェクトに関する情報を含む go.mod ファイルを作成します。

  1. HTTP クライアントの構築

HTTP クライアントを作成するには、Golang に付属の net/http パッケージを使用する必要があります。このパッケージは、HTTP リクエストとレスポンスの解析を含む、HTTP プロトコルの詳細をすべて実装します。

まず、新しい HTTP クライアントを作成します。

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

}

このクライアントを使用して HTTP GET リクエストを送信します:

func fetch(url string) (string, error) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

}

fetch 関数は、要求された Web を返します。ページのコンテンツとエラー。 defer キーワードを使用して、関数が返されたときに応答本文が確実に閉じられるようにします。

  1. HTML の解析

Web ページのソース コードを正常に取得したら、HTML を解析して必要な情報を取得する必要があります。 Go 言語の標準パッケージである html/template (HTML テンプレート) と html/parse (HTML パーサー) を使用できます。

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

}

html.Parse 関数を使用して HTML ソース コードを解析し、ツリー構造として返すことができます。このツリー構造を再帰的にたどることで、必要な情報を取得できます。

  1. 正規表現の使用

URL リンクやテキストなど、HTML ソース コードから特定の情報を抽出する必要がある場合があります。この場合、正規表現を使用できます。 Golang は正規表現を非常に適切にサポートしており、正規表現を実装するために regexp パッケージを使用できます。

たとえば、HTML ソース コードからすべての a タグのリンクを抽出する必要がある場合は、次のコードを使用できます:

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

}

正規表現href="(.*?)" すべてのリンクと一致し、文字列配列を返します。

  1. 完全なコード

以下は、Web サイト ページ上のすべてのタグ リンクを取得する完全なクローラー コードです:

package main

import (

"fmt"
"log"
"net/http"
"regexp"
"strings"
"time"

"golang.org/x/net/html"

)

const (

url = "https://example.com"

)

func main() {

htmlContent, err := fetch(url)
if err != nil {
    log.Fatal(err)
}
links := extractLinks(htmlContent)
for _, link := range links {
    fmt.Println(link)
}

}

func newHTTPClient(タイムアウト時間.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

}

func fetch(url string) (string, error) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

}

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

}

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

}

概要

Golang を使用して Web クローラーを作成すると、クロール速度が大幅に向上します。また、Golang のような強力な言語を使用してクローラー コードを作成すると、より高い保守性とスケーラビリティを実現できます。この記事では、Golang を使用して簡単なクローラーを作成する方法について説明します。この記事が、Web クローラーを学習したい読者や Golang を使用する開発者に役立つことを願っています。

以上がGolang クローラーの書き方の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Golang vs. C:コードの例とパフォーマンス分析Golang vs. C:コードの例とパフォーマンス分析Apr 15, 2025 am 12:03 AM

Golangは迅速な発展と同時プログラミングに適していますが、Cは極端なパフォーマンスと基礎となる制御を必要とするプロジェクトにより適しています。 1)Golangの並行性モデルは、GoroutineとChannelを介した同時性プログラミングを簡素化します。 2)Cのテンプレートプログラミングは、一般的なコードとパフォーマンスの最適化を提供します。 3)Golangのごみ収集は便利ですが、パフォーマンスに影響を与える可能性があります。 Cのメモリ管理は複雑ですが、コントロールは問題ありません。

Golangの影響:速度、効率、シンプルさGolangの影響:速度、効率、シンプルさApr 14, 2025 am 12:11 AM

speed、効率、およびシンプル性をspeedsped.1)speed:gocompilesquilesquicklyandrunseffictient、理想的なlargeprojects.2)効率:等系dribribraryreducesexexternaldedenciess、開発効果を高める3)シンプルさ:

CとGolang:パフォーマンスが重要な場合CとGolang:パフォーマンスが重要な場合Apr 13, 2025 am 12:11 AM

Cは、ハードウェアリソースと高性能の最適化が必要なシナリオにより適していますが、Golangは迅速な開発と高い並行性処理が必要なシナリオにより適しています。 1.Cの利点は、ハードウェア特性と高い最適化機能に近いものにあります。これは、ゲーム開発などの高性能ニーズに適しています。 2.Golangの利点は、その簡潔な構文と自然な並行性サポートにあり、これは高い並行性サービス開発に適しています。

Golang in Action:実際の例とアプリケーションGolang in Action:実際の例とアプリケーションApr 12, 2025 am 12:11 AM

Golangは実際のアプリケーションに優れており、そのシンプルさ、効率性、並行性で知られています。 1)同時プログラミングはゴルチンとチャネルを通じて実装されます。2)柔軟なコードは、インターフェイスと多型を使用して記述されます。3)ネット/HTTPパッケージを使用したネットワークプログラミングを簡素化、4)効率的な同時クローラーを構築する、5)ツールと最高の実践を通じてデバッグと最適化。

Golang:Goプログラミング言語が説明しましたGolang:Goプログラミング言語が説明しましたApr 10, 2025 am 11:18 AM

GOのコア機能には、ガベージコレクション、静的リンク、並行性サポートが含まれます。 1. GO言語の並行性モデルは、GoroutineとChannelを通じて効率的な同時プログラミングを実現します。 2.インターフェイスと多型は、インターフェイスメソッドを介して実装されているため、異なるタイプを統一された方法で処理できます。 3.基本的な使用法は、関数定義と呼び出しの効率を示しています。 4。高度な使用法では、スライスは動的なサイズ変更の強力な機能を提供します。 5.人種条件などの一般的なエラーは、Getest Raceを通じて検出および解決できます。 6.パフォーマンス最適化Sync.Poolを通じてオブジェクトを再利用して、ゴミ収集圧力を軽減します。

Golangの目的:効率的でスケーラブルなシステムの構築Golangの目的:効率的でスケーラブルなシステムの構築Apr 09, 2025 pm 05:17 PM

GO言語は、効率的でスケーラブルなシステムの構築においてうまく機能します。その利点には次のものがあります。1。高性能:マシンコードにコンパイルされ、速度速度が速い。 2。同時プログラミング:ゴルチンとチャネルを介してマルチタスクを簡素化します。 3。シンプルさ:簡潔な構文、学習コストとメンテナンスコストの削減。 4。クロスプラットフォーム:クロスプラットフォームのコンパイル、簡単な展開をサポートします。

SQLソートのステートメントによる順序の結果がランダムに見えるのはなぜですか?SQLソートのステートメントによる順序の結果がランダムに見えるのはなぜですか?Apr 02, 2025 pm 05:24 PM

SQLクエリの結果の並べ替えについて混乱しています。 SQLを学習する過程で、しばしば混乱する問題に遭遇します。最近、著者は「Mick-SQL Basics」を読んでいます...

テクノロジースタックの収束は、テクノロジースタック選択のプロセスにすぎませんか?テクノロジースタックの収束は、テクノロジースタック選択のプロセスにすぎませんか?Apr 02, 2025 pm 05:21 PM

テクノロジースタックの収束とテクノロジーの選択の関係ソフトウェア開発におけるテクノロジーの選択、テクノロジースタックの選択と管理は非常に重要な問題です。最近、一部の読者が提案しています...

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール