>데이터 베이스 >MySQL 튜토리얼 >Elasticsearch에서 이메일 주소와 전화번호에 대한 유사 일치를 어떻게 구현하나요?

Elasticsearch에서 이메일 주소와 전화번호에 대한 유사 일치를 어떻게 구현하나요?

Barbara Streisand
Barbara Streisand원래의
2024-10-28 16:25:30790검색

How can I implement fuzzy matching for email addresses and telephone numbers in Elasticsearch?

Elasticsearch의 이메일 및 전화에 대한 퍼지 매칭

Elasticsearch는 퍼지 매칭을 구현하는 강력한 기능을 제공하여 특정 주소와 부분적으로 일치하는 이메일 주소나 전화번호를 검색할 수 있습니다. 값. 이 목표를 효율적으로 달성하는 방법은 다음과 같습니다.

1. 사용자 정의 분석기 사용

성능을 최적화하려면 이메일 주소(index_email_analyzer, search_email_analyzer) 및 전화번호(index_phone_analyzer, search_phone_analyzer)에 대한 사용자 정의 분석기를 만드십시오. 이러한 분석기는 특정 토크나이저와 필터를 사용하여 입력 값을 관련 토큰으로 분류합니다.

2. 인덱스 분석기를 사용하여 데이터 인덱스

데이터를 인덱스할 때 사용자 지정 인덱스 분석기를 활용하여 이메일 및 전화 값을 처리합니다. 이렇게 하면 데이터가 퍼지 매칭에 적합한 토큰화된 형식으로 저장됩니다.

3. 검색 분석기로 검색

검색 작업 중에 사용자 정의 검색 분석기를 사용하여 입력 검색 매개변수를 토큰화합니다. 이를 통해 Elasticsearch는 토큰화된 검색 매개변수를 토큰화된 데이터와 비교하여 부분 일치도 식별할 수 있습니다.

4. 인덱스 정의 예

다음은 이메일과 전화번호의 퍼지 매칭에 필요한 분석기가 포함된 인덱스 정의의 예입니다.

<code class="json">{
  "settings": {
    "analysis": {
      "analyzer": {
        "email_url_analyzer": {
          "type": "custom",
          "tokenizer": "uax_url_email",
          "filter": [ "trim" ]
        },
        "index_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "digit_edge_ngram_tokenizer",
          "filter": [ "trim" ]
        },
        "search_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "keyword",
          "filter": [ "trim" ]
        },
        "index_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "name_ngram_filter", "trim" ]
        },
        "search_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "trim" ]
        }
      },
      "char_filter": {
        "digit_only": {
          "type": "pattern_replace",
          "pattern": "\D+",
          "replacement": ""
        }
      },
      "tokenizer": {
        "digit_edge_ngram_tokenizer": {
          "type": "edgeNGram",
          "min_gram": "1",
          "max_gram": "15",
          "token_chars": [ "digit" ]
        }
      },
      "filter": {
        "name_ngram_filter": {
          "type": "ngram",
          "min_gram": "1",
          "max_gram": "20"
        }
      }
    }
  },
  "mappings": {
    "your_type": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "index_email_analyzer",
          "search_analyzer": "search_email_analyzer"
        },
        "phone": {
          "type": "string",
          "analyzer": "index_phone_analyzer",
          "search_analyzer": "search_phone_analyzer"
        }
      }
    }
  }
}</code>

5. 쿼리 예

퍼지 일치를 수행하려면 쿼리라는 용어를 활용하세요.

<code class="json">{ 
    "query": {
        "term": 
            { "phone": "136" }
    }
}</code>
<code class="json">{ 
    "query": {
        "term": 
            { "email": "@gmail.com" }
    }
}</code>

이 솔루션은 이메일 주소와 전화번호에 대한 효율적이고 정확한 퍼지 일치를 제공하여 다음과 같은 이점을 제공합니다. 부분적이거나 불완전한 입력을 기반으로 데이터를 쉽게 검색할 수 있습니다.

위 내용은 Elasticsearch에서 이메일 주소와 전화번호에 대한 유사 일치를 어떻게 구현하나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.