Rumah  >  Artikel  >  pangkalan data  >  Bagaimana untuk Mengoptimumkan Padanan Fuzzy E-mel dan Nombor Telefon dalam Elasticsearch?

Bagaimana untuk Mengoptimumkan Padanan Fuzzy E-mel dan Nombor Telefon dalam Elasticsearch?

Patricia Arquette
Patricia Arquetteasal
2024-10-30 15:51:02422semak imbas

How to Optimize Fuzzy Matching of Emails and Phone Numbers in Elasticsearch?

E-mel Pemadanan Kabur dan Nombor Telefon dalam Elasticsearch

Elasticsearch menawarkan kaedah fleksibel untuk pemadanan kabur data, termasuk e-mel dan nombor telefon. Artikel ini meneroka cara mengoptimumkan prestasi untuk pertanyaan sedemikian menggunakan penganalisis tersuai dan penapis token.

Penganalisis Tersuai untuk Padanan Kabur

Untuk memadankan e-mel dan nombor telefon secara cekap, ia adalah disyorkan untuk mencipta penganalisis tersuai dalam Elasticsearch. Penganalisis ini terdiri daripada tokenizer yang menyediakan data input untuk analisis dan satu set penapis yang melaksanakan transformasi tertentu.

Penganalisis E-mel

Penganalisis index_email_analyzer memanfaatkan tokenizer standard untuk pecahkan input. Ia kemudian menggunakan penapis seperti huruf kecil, name_ngram_filter dan memangkas untuk menukar e-mel kepada huruf kecil, menjana ngram dengan panjang yang berbeza-beza (daripada 3 hingga 20 aksara) dan mengalih keluar ruang.

search_email_analyzer juga menggunakan tokenizer standard tetapi hanya menggunakan penapis huruf kecil dan trim. Ini menyediakan input untuk carian, di mana penapis ngram tidak diperlukan.

Penganalisis Telefon

Untuk nombor telefon, index_phone_analyzer menggunakan digit_edge_ngram_tokenizer untuk menghasilkan ngram dengan panjang yang berbeza-beza (1 hingga 15 aksara) yang bermula dengan digit. Ini membolehkan untuk memadankan mana-mana awalan nombor telefon. Penapis aksara digit_only mengalih keluar aksara bukan digit untuk memastikan hanya nilai berangka dianalisis.

search_phone_analyzer menggunakan tokenizer kata kunci, yang menjana satu token daripada input, membolehkan padanan tepat nombor telefon.

Melaksanakan Penganalisis

Berikut ialah contoh pemetaan yang menggabungkan penganalisis tersuai ini:

PUT myindex
{
  "settings": {
    "analysis": {
      "analyzer": {
        "email_url_analyzer": {
          "type": "custom",
          "tokenizer": "uax_url_email",
          "filter": [ "trim" ]
        },
        "index_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "digit_edge_ngram_tokenizer",
          "filter": [ "trim" ]
        },
        "search_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "keyword",
          "filter": [ "trim" ]
        },
        "index_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "name_ngram_filter", "trim" ]
        },
        "search_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "trim" ]
        }
      },
      "char_filter": {
        "digit_only": {
          "type": "pattern_replace",
          "pattern": "\D+",
          "replacement": ""
        }
      },
      "tokenizer": {
        "digit_edge_ngram_tokenizer": {
          "type": "edgeNGram",
          "min_gram": "1",
          "max_gram": "15",
          "token_chars": [ "digit" ]
        }
      },
      "filter": {
        "name_ngram_filter": {
          "type": "ngram",
          "min_gram": "1",
          "max_gram": "20"
        }
      }
    }
  },
  "mappings": {
    "your_type": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "index_email_analyzer",
          "search_analyzer": "search_email_analyzer"
        },
        "phone": {
          "type": "string",
          "analyzer": "index_phone_analyzer",
          "search_analyzer": "search_phone_analyzer"
        }
      }
    }
  }
}

Melaksanakan Pertanyaan Kabur

Untuk memadankan e-mel yang berakhir dengan "@gmail.com" atau nombor telefon bermula dengan "136", anda boleh mengeluarkan pertanyaan seperti:
POST myindex
{
  "query": {
    "term": {
      "email": "@gmail.com"
    }
  }
}

POST myindex
{
  "query": {
    "term": {
      "phone": "136"
    }
  }
}

Pertanyaan ini akan memanfaatkan penganalisis tersuai untuk menjana ngram yang diperlukan untuk fuzzy padan.

Atas ialah kandungan terperinci Bagaimana untuk Mengoptimumkan Padanan Fuzzy E-mel dan Nombor Telefon dalam Elasticsearch?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn