網路搜尋引擎對於索引大量線上資訊至關重要,可以在幾毫秒內存取這些資訊。在這個專案中,我用 Go (Golang) 建立了一個名為 RelaxSearch 的搜尋引擎。它透過與強大的搜尋和分析引擎 Elasticsearch 集成,將網頁抓取、定期資料索引和搜尋功能結合在一起。在這篇部落格中,我將帶您了解 RelaxSearch 的主要元件、架構,以及它如何有效地抓取和索引數據,以實現基於關鍵字的快速搜尋。
RelaxSearch 概述
RelaxSearch 圍繞著兩個主要模組建構:
- RelaxEngine:由 cron 作業提供支援的網頁抓取工具,它定期抓取指定的網站、提取內容並在 Elasticsearch 中為其建立索引。
- RelaxWeb:一個 RESTful API 伺服器,允許使用者搜尋索引數據,提供分頁、過濾和內容突出顯示,以實現用戶友好的回應。
項目動機
從頭開始建立搜尋引擎專案是了解網頁抓取、資料索引和高效搜尋技術的好方法。我想利用 Go 的效率和 Elasticsearch 強大的索引來創建一個簡單但實用的搜尋引擎,具有快速資料檢索和易於擴展的特點。
主要特點
- 自動抓取:使用 cron 作業,RelaxEngine 可以定期運行,抓取資料並將其儲存在 Elasticsearch 中。
- 全文搜尋:RelaxWeb提供全文搜尋功能,依關鍵字索引內容,檢索速度快。
- REST API:可透過具有分頁、日期過濾和內容突出顯示參數的 RESTful API 進行存取。
- 資料儲存:索引內容儲存在Elasticsearch中,允許可擴展且高度回應的查詢。
RelaxSearch的架構
1.RelaxEngine(網頁抓取器和索引器)
RelaxEngine 是一個用 Go 編寫的網頁抓取工具,用於導航網頁、提取和儲存內容。它會作為 cron 作業運行,因此可以定期(例如每 30 分鐘)運行一次,以保持索引更新為最新的 Web 資料。其工作原理如下:
- 種子 URL:RelaxEngine 開始從指定的種子 URL 進行抓取,然後追蹤網站內的連結直至可設定的深度。
- 內容解析:對於每個頁面,它提取標題、描述和關鍵字,建立資訊資料集。
- Elasticsearch 中的索引:抓取的內容在 Elasticsearch 中建立索引,準備進行全文搜尋。每個頁面的資料都儲存有唯一的識別碼、標題、描述和其他元資料。
2.RelaxWeb(搜尋API)
RelaxWeb 提供 RESTful API 端點,可以輕鬆查詢並檢索 Elasticsearch 中儲存的資料。 API 接受關鍵字、分頁、日期過濾等多個參數,以 JSON 格式傳回相關內容。
- API 端點:/search
-
查詢參數:
- 關鍵字:主要搜尋字詞。
- from 和 size:分頁控制。
- dateRangeStart 和 dateRangeEnd:根據資料時間戳記過濾結果。
關鍵組件和程式碼片段
以下是一些來自 RelaxSearch 的重要元件和程式碼摘錄,以說明其工作原理。
RelaxEngine 的主要 Go 程式碼
核心功能位於 main.go 檔案中,其中 RelaxEngine 使用 gocron 初始化排程器來管理 cron 作業,設定 Elasticsearch 用戶端,並開始從種子 URL 進行爬取。
func main() { cfg := config.LoadConfig() esClient := crawler.NewElasticsearchClient(cfg.ElasticsearchURL) c := crawler.NewCrawler(cfg.DepthLimit, 5) seedURL := "https://example.com/" // Replace with starting URL s := gocron.NewScheduler(time.UTC) s.Every(30).Minutes().Do(func() { go c.StartCrawling(seedURL, 0, esClient) }) s.StartBlocking() }
爬蟲和索引邏輯
crawler.go 檔案處理網頁要求、提取內容並為其建立索引。使用elastic包,每個抓取的頁面都儲存在Elasticsearch中。
func (c *Crawler) StartCrawling(pageURL string, depth int, esClient *elastic.Client) { if depth > c.DepthLimit || c.isVisited(pageURL) { return } c.markVisited(pageURL) links, title, content, description, err := c.fetchAndParsePage(pageURL) if err == nil { pageData := PageData{URL: pageURL, Title: title, Content: content, Description: description} IndexPageData(esClient, pageData) } for _, link := range links { c.StartCrawling(link, depth+1, esClient) } }
在RelaxWeb中搜尋API程式碼
在relaxweb服務中,API端點提供全文搜尋功能。端點 /search 接收請求並查詢 Elasticsearch,根據關鍵字傳回相關內容。
func searchHandler(w http.ResponseWriter, r *http.Request) { keyword := r.URL.Query().Get("keyword") results := queryElasticsearch(keyword) json.NewEncoder(w).Encode(results) }
設定 RelaxSearch
- 克隆儲存庫
git clone https://github.com/Ravikisha/RelaxSearch.git cd RelaxSearch
配置
使用 Elasticsearch 憑證更新 RelaxEngine 和 RelaxWeb 的 .env 檔案。使用 Docker 運行
RelaxSearch 使用 Docker 來輕鬆設定。只要運行:
docker-compose up --build
挑戰與改進
- 可擴展性:Elasticsearch 可以很好地擴展,但是處理大量連結的大量抓取需要針對更大規模的部署進行最佳化。
- 強大的錯誤處理:增強錯誤處理和重試機制將提高彈性。
結論
RelaxSearch 是基本搜尋引擎的教育和實踐演示。雖然它仍然是一個原型,但該專案對於理解 Web 抓取、全文搜尋以及使用 Go 和 Elasticsearch 進行高效資料索引的基礎知識很有幫助。它為可擴展環境中的改進和實際應用開闢了途徑。
探索 GitHub 儲存庫,親自嘗試 RelaxSearch!
以上是使用 Elasticsearch 在 Go 中建立 Web 搜尋引擎的詳細內容。更多資訊請關注PHP中文網其他相關文章!

掌握Go語言中的strings包可以提高文本處理能力和開發效率。 1)使用Contains函數檢查子字符串,2)用Index函數查找子字符串位置,3)Join函數高效拼接字符串切片,4)Replace函數替換子字符串。注意避免常見錯誤,如未檢查空字符串和大字符串操作性能問題。

你應該關心Go語言中的strings包,因為它能簡化字符串操作,使代碼更清晰高效。 1)使用strings.Join高效拼接字符串;2)用strings.Fields按空白符分割字符串;3)通過strings.Index和strings.LastIndex查找子串位置;4)用strings.ReplaceAll進行字符串替換;5)利用strings.Builder進行高效字符串拼接;6)始終驗證輸入以避免意外結果。

thestringspackageingoisesential forefficientstringManipulation.1)itoffersSimpleyetpoperfulfunctionsFortaskSlikeCheckingSslingSubstringsStringStringsStringsandStringsN.2)ithandhishiCodeDewell,withFunctionsLikestrings.fieldsfieldsfieldsfordsforeflikester.fieldsfordsforwhitespace-fieldsforwhitespace-separatedvalues.3)3)

WhendecidingbetweenGo'sbytespackageandstringspackage,usebytes.Bufferforbinarydataandstrings.Builderforstringoperations.1)Usebytes.Bufferforworkingwithbyteslices,binarydata,appendingdifferentdatatypes,andwritingtoio.Writer.2)Usestrings.Builderforstrin

Go的strings包提供了多種字符串操作功能。 1)使用strings.Contains檢查子字符串。 2)用strings.Split將字符串分割成子字符串切片。 3)通過strings.Join合併字符串。 4)用strings.TrimSpace或strings.Trim去除字符串首尾的空白或指定字符。 5)用strings.ReplaceAll替換所有指定子字符串。 6)使用strings.HasPrefix或strings.HasSuffix檢查字符串的前綴或後綴。

使用Go語言的strings包可以提升代碼質量。 1)使用strings.Join()優雅地連接字符串數組,避免性能開銷。 2)結合strings.Split()和strings.Contains()處理文本,注意大小寫敏感問題。 3)避免濫用strings.Replace(),考慮使用正則表達式進行大量替換。 4)使用strings.Builder提高頻繁拼接字符串的性能。

Go的bytes包提供了多種實用的函數來處理字節切片。 1.bytes.Contains用於檢查字節切片是否包含特定序列。 2.bytes.Split用於將字節切片分割成smallerpieces。 3.bytes.Join用於將多個字節切片連接成一個。 4.bytes.TrimSpace用於去除字節切片的前後空白。 5.bytes.Equal用於比較兩個字節切片是否相等。 6.bytes.Index用於查找子切片在largerslice中的起始索引。

theEncoding/binarypackageingoisesenebecapeitProvidesAstandArdArdArdArdArdArdArdArdAndWriteBinaryData,確保Cross-cross-platformCompatibilitiational and handhandlingdifferentendenness.itoffersfunctionslikeread,寫下,寫,dearte,readuvarint,andwriteuvarint,andWriteuvarIntforPreciseControloverBinary


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3漢化版
中文版,非常好用

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)