Wie kann der Fuzzy-Abgleich von E-Mails und Telefonnummern in Elasticsearch optimiert werden?-MySQL-Tutorial-php.cn

Heim

Datenbank

MySQL-Tutorial

Wie kann der Fuzzy-Abgleich von E-Mails und Telefonnummern in Elasticsearch optimiert werden?

Patricia Arquette

Oct 30, 2024 pm 03:51 PM

How to Optimize Fuzzy Matching of Emails and Phone Numbers in Elasticsearch?

Fuzzy-Matching von E-Mails und Telefonnummern in Elasticsearch

Elasticsearch bietet flexible Methoden für den Fuzzy-Matching von Daten, einschließlich E-Mails und Telefonnummern. In diesem Artikel wird untersucht, wie Sie die Leistung für solche Abfragen mithilfe benutzerdefinierter Analysatoren und Tokenfilter optimieren können.

Benutzerdefinierte Analysatoren für Fuzzy-Matching

Für einen effizienten Fuzzy-Abgleich von E-Mails und Telefonnummern ist es wichtig Es wird empfohlen, benutzerdefinierte Analysatoren in Elasticsearch zu erstellen. Diese Analysatoren bestehen aus einem Tokenizer, der Eingabedaten für die Analyse vorbereitet, und einer Reihe von Filtern, die bestimmte Transformationen ausführen.

E-Mail-Analysator

Der index_email_analyzer-Analysator nutzt den Standard-Tokenizer, um Zerlegen Sie die Eingabe. Anschließend werden Filter wie „Kleinbuchstaben“, „name_ngram_filter“ und „trimmen“ angewendet, um die E-Mail in Kleinbuchstaben umzuwandeln, Ngrams unterschiedlicher Länge (von 3 bis 20 Zeichen) zu generieren und Leerzeichen zu entfernen.

Der search_email_analyzer verwendet in ähnlicher Weise den Standard-Tokenizer, jedoch Verwendet nur Kleinbuchstaben- und Trim-Filter. Dadurch wird die Eingabe für die Suche vorbereitet, bei der der Ngram-Filter nicht erforderlich ist.

Telefonanalysator

Für Telefonnummern verwendet der index_phone_analyzer den digit_edge_ngram_tokenizer, um Ngramme unterschiedlicher Länge zu generieren (1 bis 15 Zeichen), die mit einer Ziffer beginnen. Dies ermöglicht die Zuordnung jedes beliebigen Präfixes einer Telefonnummer. Der Zeichenfilter „digit_only“ entfernt nicht-stellige Zeichen, um sicherzustellen, dass nur numerische Werte analysiert werden.

Der search_phone_analyzer verwendet den Schlüsselwort-Tokenizer, der aus der Eingabe ein einzelnes Token generiert und so eine genaue Zuordnung von Telefonnummern ermöglicht.

Implementieren der Analysatoren

Hier ist eine Beispielzuordnung, die diese benutzerdefinierten Analysatoren integriert:

PUT myindex
{
  "settings": {
    "analysis": {
      "analyzer": {
        "email_url_analyzer": {
          "type": "custom",
          "tokenizer": "uax_url_email",
          "filter": [ "trim" ]
        },
        "index_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "digit_edge_ngram_tokenizer",
          "filter": [ "trim" ]
        },
        "search_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "keyword",
          "filter": [ "trim" ]
        },
        "index_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "name_ngram_filter", "trim" ]
        },
        "search_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "trim" ]
        }
      },
      "char_filter": {
        "digit_only": {
          "type": "pattern_replace",
          "pattern": "\D+",
          "replacement": ""
        }
      },
      "tokenizer": {
        "digit_edge_ngram_tokenizer": {
          "type": "edgeNGram",
          "min_gram": "1",
          "max_gram": "15",
          "token_chars": [ "digit" ]
        }
      },
      "filter": {
        "name_ngram_filter": {
          "type": "ngram",
          "min_gram": "1",
          "max_gram": "20"
        }
      }
    }
  },
  "mappings": {
    "your_type": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "index_email_analyzer",
          "search_analyzer": "search_email_analyzer"
        },
        "phone": {
          "type": "string",
          "analyzer": "index_phone_analyzer",
          "search_analyzer": "search_phone_analyzer"
        }
      }
    }
  }
}

Durchführen von Fuzzy-Abfragen

Um E-Mails, die mit „@gmail.com“ enden, oder Telefonnummern, die mit „136“ beginnen, abzugleichen, können Sie Abfragen stellen wie:

POST myindex
{
  "query": {
    "term": {
      "email": "@gmail.com"
    }
  }
}

POST myindex
{
  "query": {
    "term": {
      "phone": "136"
    }
  }
}

Diese Abfragen nutzen die benutzerdefinierten Analysatoren, um die erforderlichen Ngrams für Fuzzy zu generieren passend.

Das obige ist der detaillierte Inhalt vonWie kann der Fuzzy-Abgleich von E-Mails und Telefonnummern in Elasticsearch optimiert werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Was sind die Grenzen der Verwendung von Ansichten in MySQL?May 14, 2025 am 12:10 AM

MySQLViewShavelimitations: 1) Sie sind supportallsqloperationen, restriktedatamanipulation ThroughviewswithjoinSuBqueries.2) Sie können sich angesehen, insbesondere mit der kompetenten Formata -Ansichten, die docrexQuqueriesorlargedatasets angezeigt werden

Sicherung Ihrer MySQL -Datenbank: Hinzufügen von Benutzern und Gewährung von BerechtigungenMay 14, 2025 am 12:09 AM

OrteSermanagementinmysqlisicialforenHancingSecurityAnsuringEffizienceDatabaseoperation.1) Usecreateutertoaddusers, spezifizierende Connections mit 'localhost'or@'%'.

Welche Faktoren beeinflussen die Anzahl der Trigger, die ich in MySQL verwenden kann?May 14, 2025 am 12:08 AM

Mysqldoes nicht imposeahardlimitontriggers, aber praktische Faktorendeterminetheireffectiveuse: 1) serverconfigurationImpactstriggermanagement;

MySQL: Ist es sicher, Blob zu speichern?May 14, 2025 am 12:07 AM

Ja, es ist safetostoreblobdatainmysql, butconsiderthesefactors: 1) StorageSpace: BloBScanconSignificantantspace, potenziellincreaseingCostsandSlowingPerformance.2) Leistung: größereRowsisDuetoBoBsMayslowdownquers.3) BackupandRecovery:

MySQL: Hinzufügen eines Benutzers über eine PHP -Weboberfläche hinzufügenMay 14, 2025 am 12:04 AM

Das Hinzufügen von MySQL -Benutzern über die PHP -Weboberfläche kann MySQLI -Erweiterungen verwenden. Die Schritte lauten wie folgt: 1. Verbinden Sie eine Verbindung zur MySQL -Datenbank und verwenden Sie die MySQLI -Erweiterung. 2. Erstellen Sie einen Benutzer, verwenden Sie die Anweisung createUser und verwenden Sie die Funktion password (), um das Kennwort zu verschlüsseln. 3.. Verhindern Sie die SQL -Injektion und verwenden Sie die Funktion mySQLI_REAL_ESCAPE_STRING (), um die Benutzereingabe zu verarbeiten. V.

MySQL: Blob und andere Nicht-SQL-Speicher, was sind die Unterschiede?May 13, 2025 am 12:14 AM

Mysql'SbloBissableForstoringBinaryDatawithinarelationalDatabase, whilenosqloptionslikemongodb, Redis und CassandraofferFlexible, skalablessolutionenfornernstrukturierteData.blobissimplerbutcanslowdownscalgedlargedDataTTersClaTTersScalgedlargedDataTersClaTTersScalgedlargedDataTersClaTTERSCHITHLARGEGEGEBEN

MySQL Fügen Sie Benutzer hinzu: Syntax-, Optionen und Best Practices für SicherheitsverhältnisseMay 13, 2025 am 12:12 AM

ToaddauserinMysql, Verwendung: createUser'username '@' host'identifiedBy'password '; hier'Showtodoitesecurely: 1) choosethehostCrefulyTocon TrolAccess.2) setResourcelimits withOptionslikemax_queries_per_hour.3) UsSeStong, Uniquepasswords.4) Enforcesl/tlsConnectionsWith

MySQL: Wie vermeidet man String -Datentypen gemeinsame Fehler?May 13, 2025 am 12:09 AM

ToavoidCommonMistakeswithStringDatatypesinmysql, Verständnisstringtypenuances, ChoosetherightType, und ManageCodingandCollationsetingseffekt.1) UsecharforFixed-Länge-Strings, Varcharforvariable-Länge und Ventionlargerdata.2) -Tetcorrectaracters und Ventionlargerdata.2)

See all articles