Elasticsearch を使用して Go で Web 検索エンジンを構築する-Golang-php.cn

ホームページ

バックエンド開発

Golang

Elasticsearch を使用して Go で Web 検索エンジンを構築する

Susan Sarandon

Nov 05, 2024 am 10:33 AM

ウェブ検索エンジンは、膨大なオンライン情報のインデックスを作成し、ミリ秒単位でアクセスできるようにするために不可欠です。このプロジェクトでは、RelaxSearch という名前の検索エンジンを Go (Golang) で構築しました。強力な検索および分析エンジンである Elasticsearch と統合することで、Web スクレイピング、定期的なデータのインデックス作成、検索機能を組み合わせます。このブログでは、RelaxSearch の主要コンポーネント、アーキテクチャ、およびキーワードベースの高速検索のためにデータを効率的に収集してインデックスを作成する方法について説明します。

リラックスサーチの概要

RelaxSearch は 2 つの主要モジュールを中心に構築されています:

RelaxEngine: cron ジョブを利用した Web スクレイパー。指定された Web サイトを定期的にクロールし、コンテンツを抽出し、Elasticsearch でインデックスを作成します。
RelaxWeb: ユーザーがインデックス付きデータを検索できるようにする RESTful API サーバー。ページネーション、フィルタリング、コンテンツの強調表示を提供して、ユーザーフレンドリーな応答を提供します。

プロジェクトの動機

検索エンジンプロジェクトを最初から作成することは、Web スクレイピング、データのインデックス作成、効率的な検索テクニックを理解するのに最適な方法です。 Go の効率性と Elasticsearch の強力なインデックス作成を利用して、高速なデータ取得と簡単な拡張性を備えた、シンプルだが機能的な検索エンジンを作成したいと考えていました。

主な特長

自動クロール: cron ジョブを使用すると、RelaxEngine を定期的に実行し、データをスクレイピングして Elasticsearch に保存できます。
全文検索: RelaxWeb は全文検索機能を提供し、キーワードによってコンテンツにインデックスを付け、高速な検索を可能にします。
REST API: ページネーション、日付フィルター、コンテンツのハイライトのパラメーターを備えた RESTful API を通じてアクセスできます。
データストレージ: インデックス付きコンテンツは Elasticsearch に保存され、スケーラブルで応答性の高いクエリが可能になります。

RelaxSearch のアーキテクチャ

1. RelaxEngine (Web スクレイパーおよびインデクサー)

RelaxEngine は、Web ページをナビゲートし、コンテンツを抽出して保存する Go で書かれた Web スクレイパーです。これは cron ジョブとして実行されるため、定期的な間隔 (例: 30 分ごと) で動作し、最新の Web データでインデックスを更新し続けることができます。仕組みは次のとおりです:

シード URL: RelaxEngine は、指定されたシード URL からスクレイピングを開始し、設定可能な深さまでサイト内のリンクをたどります。
コンテンツ解析: ページごとに、タイトル、説明、キーワードを抽出し、有益なデータセットを構築します。
Elasticsearch でのインデックス作成: スクレイピングされたコンテンツは Elasticsearch でインデックス付けされ、全文検索の準備が整います。各ページのデータは、一意の識別子、タイトル、説明、その他のメタデータとともに保存されます。

2. RelaxWeb（検索API）

RelaxWeb は RESTful API エンドポイントを提供し、Elasticsearch に保存されているデータのクエリと取得を簡単にします。 API はキーワード、ページネーション、日付フィルタリングなどのいくつかのパラメータを受け入れ、関連するコンテンツを JSON 形式で返します。

API エンドポイント: /search
クエリパラメータ:
- キーワード: 主な検索語。
- 開始元とサイズ: ページネーション制御。
- dateRangeStart および dateRangeEnd: データのタイムスタンプに基づいて結果をフィルターします。

Building a Web Search Engine in Go with Elasticsearch

主要なコンポーネントとコードスニペット

以下は、RelaxSearch がどのように機能するかを説明するために、いくつかの重要なコンポーネントと RelaxSearch からのコードの抜粋です。

RelaxEngine のメイン Go コード

コア機能は main.go ファイルにあり、RelaxEngine は gocron を使用して cron ジョブを管理するスケジューラーを初期化し、Elasticsearch クライアントをセットアップし、シード URL からのクロールを開始します。

func main() {
    cfg := config.LoadConfig()
    esClient := crawler.NewElasticsearchClient(cfg.ElasticsearchURL)
    c := crawler.NewCrawler(cfg.DepthLimit, 5)
    seedURL := "https://example.com/" // Replace with starting URL

    s := gocron.NewScheduler(time.UTC)
    s.Every(30).Minutes().Do(func() {
        go c.StartCrawling(seedURL, 0, esClient)
    })
    s.StartBlocking()
}

クローラーとインデックス作成ロジック

crawler.go ファイルは、Web ページのリクエストを処理し、コンテンツを抽出し、インデックスを作成します。 Elastic パッケージを使用して、スクレイピングされた各ページは Elasticsearch に保存されます。

func (c *Crawler) StartCrawling(pageURL string, depth int, esClient *elastic.Client) {
    if depth > c.DepthLimit || c.isVisited(pageURL) {
        return
    }
    c.markVisited(pageURL)
    links, title, content, description, err := c.fetchAndParsePage(pageURL)
    if err == nil {
        pageData := PageData{URL: pageURL, Title: title, Content: content, Description: description}
        IndexPageData(esClient, pageData)
    }
    for _, link := range links {
        c.StartCrawling(link, depth+1, esClient)
    }
}

RelaxWeb で API コードを検索

relaxweb サービスでは、API エンドポイントが全文検索機能を提供します。エンドポイント /search はリクエストを受け取り、Elasticsearch にクエリを実行し、キーワードに基づいて関連コンテンツを返します。

func searchHandler(w http.ResponseWriter, r *http.Request) {
    keyword := r.URL.Query().Get("keyword")
    results := queryElasticsearch(keyword)
    json.NewEncoder(w).Encode(results)
}

RelaxSearch のセットアップ

リポジトリのクローンを作成します

   git clone https://github.com/Ravikisha/RelaxSearch.git
   cd RelaxSearch

構成

Elasticsearch 認証情報を使用して、RelaxEngine と RelaxWeb の両方の .env ファイルを更新します。
Docker で実行

RelaxSearch は Docker を使用してセットアップを簡単にします。次を実行するだけです:

   docker-compose up --build

Building a Web Search Engine in Go with Elasticsearch

課題と改善点

スケーラビリティ: Elasticsearch は拡張性に優れていますが、多数のリンクによる大規模なスクレイピングを処理するには、大規模なデプロイメント向けの最適化が必要です。
堅牢なエラー処理: エラー処理と再試行メカニズムを強化すると、復元力が向上します。

結論

RelaxSearch は、基本的な検索エンジンの教育的かつ実践的なデモンストレーションです。このプロジェクトはまだプロトタイプですが、Web スクレイピング、全文検索、Go と Elasticsearch を使用した効率的なデータインデックス作成の基礎を理解するのに役立ちました。これにより、スケーラブルな環境での改善と実際のアプリケーションへの道が開かれます。

GitHub リポジトリを探索して、RelaxSearch を自分で試してみてください!

以上がElasticsearch を使用して Go で Web 検索エンジンを構築するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

GOの文字列操作：「文字列」パッケージのマスタリングMay 14, 2025 am 12:19 AM

GO言語で文字列パッケージをマスターすると、テキスト処理機能と開発効率が向上します。 1）コンテナ機能を使用してサブストリングを確認し、2）インデックス関数を使用してサブストリング位置を見つけ、3）関数を効率的にスプライスストリングスライス、4）機能を置き換えてサブストリングを置き換えます。空の文字列や大きな文字列操作のパフォーマンスの問題をチェックしないなど、一般的なエラーを避けるように注意してください。

「文字列」パッケージのヒントとトリックに移動しますMay 14, 2025 am 12:18 AM

文字列の操作を簡素化し、コードをより明確かつ効率的にすることができるため、GOの文字列パッケージを気にする必要があります。 1）文字列を使用して、弦を効率的にスプライスするために参加します。 2）文字列を使用して、空白の文字で文字列を分割します。 3）文字列を介してサブストリング位置を見つけます。Indexと文字列lastindex; 4）文字列を使用して、文字列を置き換える。 5）文字列を使用して、ビルダーを効率的にスプライスします。 6）予期しない結果を避けるために、常に入力を確認してください。

Goの「文字列」パッケージ：文字列操作のためのあなたの頼みMay 14, 2025 am 12:17 AM

theStringspackageIngoisESSENTINEFOREFFSTRINGMANIPULATION.1）ITOFFERSSSIMPLEYETPOWERFULFUNCTIONS FORTOSSCHECKINGSUBSTRINGSNINGSTRINGS.2）ITHANDLESUNICODEWELL、ITHANDLESUNICODEWELL

BYTESパッケージと文字列パッケージに移動します：どちらを使用すればよいですか？May 14, 2025 am 12:12 AM

whendeciding botedego'sbytespackageandstringspackage、usebytes.bufferbinarydataandstrings.builderforstringoperations.1）usebytes.bufferforkithbyteslices、binarydata、appendingdatatypes、およびwritioio.writioio.writioio.writioio.writioio.

「文字列」パッケージを使用して、ステップバイステップで文字列を操作する方法May 13, 2025 am 12:12 AM

Goの文字列パッケージは、さまざまな文字列操作機能を提供します。 1）文字列を使用して、サブストリングを確認します。 2）文字列を使用して、ストリングをサブストリングスライスに分割します。 3）文字列を通して文字列をマージします。 4）文字列または文字列を使用して、文字列の最初と端でブランクまたは指定された文字を削除します。 5）指定されたすべてのサブストリングを文字列に置き換えます。ReplaceAll。 6）文字列を使用して、hasprefixまたは文字列hassuffixを使用して、文字列の接頭辞または接尾辞を確認します。

文字列パッケージに行く：私のコードを改善する方法は？May 13, 2025 am 12:10 AM

GO言語文字列パッケージを使用すると、コードの品質が向上します。 1）文字列を使用して（）join（）を使用して、パフォーマンスのオーバーヘッドを避けるために、文字列アレイをエレガントに接続します。 2）strings.split（）とstrings.contains（）を組み合わせて、テキストを処理し、ケースの感度の問題に注意を払います。 3）文字列の乱用を避け、replace（）を回避し、多数の置換に正規表現を使用することを検討します。 4）文字列を使用して、ビルダーを使用して、頻繁にスプライシング文字列の性能を向上させます。

GO BYTESパッケージで最も有用な機能は何ですか？May 13, 2025 am 12:09 AM

GoのBYTESパッケージは、バイトスライスを処理するためのさまざまな実用的な機能を提供します。 1.bites.containsは、バイトスライスに特定のシーケンスが含まれているかどうかを確認するために使用されます。 2.bites.splitは、バイトスライスをスモールピースに分割するために使用されます。 3.bites.joinは、複数のバイトスライスを1つに連結するために使用されます。 4.bites.trimspaceは、バイトスライスのフロントブランクとバックブランクを削除するために使用されます。 5.バイト。エクアルは、2つのバイトスライスが等しいかどうかを比較するために使用されます。 6.bytes.indexは、大規模なスライスでサブスライスの開始インデックスを見つけるために使用されます。

Goの「エンコーディング/バイナリ」パッケージを使用したバイナリデータ処理の習得：包括的なガイドMay 13, 2025 am 12:07 AM

エンコード/binaryPackageIngoisESSENTINESTENTINESTINESTIDANDARDIZEDWAIDTOREADANDWRITEBINIRYDATA、クロスプラットフォームコンパティビティアンドハンドリングの可能性を確保することを確認します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ホットトピック

1673

1429

1333

1278

1257

Elasticsearch を使用して Go で Web 検索エンジンを構築する

リラックスサーチの概要

プロジェクトの動機

主な特長

RelaxSearch のアーキテクチャ

1. RelaxEngine (Web スクレイパーおよびインデクサー)

2. RelaxWeb（検索API）

主要なコンポーネントとコードスニペット

RelaxEngine のメイン Go コード

クローラーとインデックス作成ロジック

RelaxWeb で API コードを検索

RelaxSearch のセットアップ

課題と改善点

結論

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

SecLists

SublimeText3 英語版

SublimeText3 Linux 新バージョン

VSCode Windows 64 ビットのダウンロード

SublimeText3 Mac版

ホットトピック

Elasticsearch を使用して Go で Web 検索エンジンを構築する

リラックスサーチの概要

プロジェクトの動機

主な特長

RelaxSearch のアーキテクチャ

1. RelaxEngine (Web スクレイパーおよびインデクサー)

2. RelaxWeb（検索API）

主要なコンポーネントとコード スニペット

RelaxEngine のメイン Go コード

クローラーとインデックス作成ロジック

RelaxWeb で API コードを検索

RelaxSearch のセットアップ

課題と改善点

結論

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

SecLists

SublimeText3 英語版

SublimeText3 Linux 新バージョン

VSCode Windows 64 ビットのダウンロード

SublimeText3 Mac版

ホットトピック

主要なコンポーネントとコードスニペット