Elasticsearch 中模糊匹配電子郵件和電話號碼
Elasticsearch 提供靈活的方法來模糊匹配數據,包括電子郵件和電話號碼。本文探討如何使用自訂分析器和標記過濾器來最佳化此類查詢的效能。
用於模糊匹配的自訂分析器
要有效地模糊匹配電子郵件和電話號碼,需要建議在 Elasticsearch 中建立自訂分析器。這些分析器由一個準備分析輸入資料的分詞器和一組執行特定轉換的過濾器組成。
電子郵件分析器
index_email_analyzer 分析器利用標準分詞器來分解輸入。然後,它應用 lowercase、name_ngram_filter 和 trim 等過濾器將電子郵件轉換為小寫,產生不同長度的 ngram(3 到 20 個字元),並刪除空格。
search_email_analyzer 類似地使用標準分詞器,但僅使用小寫和修剪過濾器。這為搜尋準備了輸入,其中不需要 ngram 過濾器。
電話分析器
對於電話號碼,index_phone_analyzer 利用 digital_edge_ngram_tokenizer 產生不同長度的 ngram以數字開頭的(1 到 15 個字元)。這允許匹配電話號碼的任何前綴。 digital_only 字元過濾器會刪除非數字字符,以確保僅分析數字值。
search_phone_analyzer 使用關鍵字分詞器,它會從輸入產生單一標記,從而實現電話號碼的精確匹配。
實作分析器
以下是包含這些自訂分析器的範例對應:
PUT myindex { "settings": { "analysis": { "analyzer": { "email_url_analyzer": { "type": "custom", "tokenizer": "uax_url_email", "filter": [ "trim" ] }, "index_phone_analyzer": { "type": "custom", "char_filter": [ "digit_only" ], "tokenizer": "digit_edge_ngram_tokenizer", "filter": [ "trim" ] }, "search_phone_analyzer": { "type": "custom", "char_filter": [ "digit_only" ], "tokenizer": "keyword", "filter": [ "trim" ] }, "index_email_analyzer": { "type": "custom", "tokenizer": "standard", "filter": [ "lowercase", "name_ngram_filter", "trim" ] }, "search_email_analyzer": { "type": "custom", "tokenizer": "standard", "filter": [ "lowercase", "trim" ] } }, "char_filter": { "digit_only": { "type": "pattern_replace", "pattern": "\D+", "replacement": "" } }, "tokenizer": { "digit_edge_ngram_tokenizer": { "type": "edgeNGram", "min_gram": "1", "max_gram": "15", "token_chars": [ "digit" ] } }, "filter": { "name_ngram_filter": { "type": "ngram", "min_gram": "1", "max_gram": "20" } } } }, "mappings": { "your_type": { "properties": { "email": { "type": "string", "analyzer": "index_email_analyzer", "search_analyzer": "search_email_analyzer" }, "phone": { "type": "string", "analyzer": "index_phone_analyzer", "search_analyzer": "search_phone_analyzer" } } } } }
執行模糊查詢
執行模糊詢問>POST myindex { "query": { "term": { "email": "@gmail.com" } } } POST myindex { "query": { "term": { "phone": "136" } } }
要匹配以“@gmail.com”結尾的電子郵件或以“136”開頭的電話號碼,您可以發出以下查詢:
這些查詢將利用自定義分析器產生模糊所需的ngram匹配。以上是如何優化Elasticsearch中電子郵件和電話號碼的模糊匹配?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本文探討了Docker中的優化MySQL內存使用量。 它討論了監視技術(Docker統計,性能架構,外部工具)和配置策略。 其中包括Docker內存限制,交換和cgroups

本文介紹了MySQL的“無法打開共享庫”錯誤。 該問題源於MySQL無法找到必要的共享庫(.SO/.DLL文件)。解決方案涉及通過系統軟件包M驗證庫安裝

本文討論了使用MySQL的Alter Table語句修改表,包括添加/刪除列,重命名表/列以及更改列數據類型。

本文比較使用/不使用PhpMyAdmin的Podman容器直接在Linux上安裝MySQL。 它詳細介紹了每種方法的安裝步驟,強調了Podman在孤立,可移植性和可重複性方面的優勢,還

本文提供了SQLite的全面概述,SQLite是一個獨立的,無服務器的關係數據庫。 它詳細介紹了SQLite的優勢(簡單,可移植性,易用性)和缺點(並發限制,可伸縮性挑戰)。 c

本指南展示了使用自製在MacOS上安裝和管理多個MySQL版本。 它強調使用自製裝置隔離安裝,以防止衝突。 本文詳細詳細介紹了安裝,起始/停止服務和最佳PRA

文章討論了為MySQL配置SSL/TLS加密,包括證書生成和驗證。主要問題是使用自簽名證書的安全含義。[角色計數:159]

文章討論了流行的MySQL GUI工具,例如MySQL Workbench和PhpMyAdmin,比較了它們對初學者和高級用戶的功能和適合性。[159個字符]


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3漢化版
中文版,非常好用

SublimeText3 Linux新版
SublimeText3 Linux最新版

記事本++7.3.1
好用且免費的程式碼編輯器

Dreamweaver CS6
視覺化網頁開發工具