Comment optimiser la correspondance floue des e-mails et des numéros de téléphone dans Elasticsearch ?-tutoriel mysql-php.cn

Maison

base de données

tutoriel mysql

Comment optimiser la correspondance floue des e-mails et des numéros de téléphone dans Elasticsearch ?

Patricia Arquette

Oct 30, 2024 pm 03:51 PM

How to Optimize Fuzzy Matching of Emails and Phone Numbers in Elasticsearch?

Correspondance floue des e-mails et des numéros de téléphone dans Elasticsearch

Elasticsearch propose des méthodes flexibles pour la correspondance floue des données, y compris les e-mails et les numéros de téléphone. Cet article explique comment optimiser les performances de ces requêtes à l'aide d'analyseurs personnalisés et de filtres de jetons.

Analyseurs personnalisés pour la correspondance floue

Pour une correspondance floue efficace des e-mails et des numéros de téléphone, il est Il est recommandé de créer des analyseurs personnalisés dans Elasticsearch. Ces analyseurs se composent d'un tokenizer qui prépare les données d'entrée pour l'analyse et d'un ensemble de filtres qui exécutent des transformations spécifiques.

Email Analyzer

L'analyseur index_email_analyzer exploite le tokenizer standard pour décomposer l'entrée. Il applique ensuite des filtres tels que minuscules, name_ngram_filter et trim pour convertir l'e-mail en minuscules, générer des ngrammes de différentes longueurs (de 3 à 20 caractères) et supprimer les espaces.

Le search_email_analyzer utilise de la même manière le tokenizer standard mais utilise uniquement des filtres minuscules et de garniture. Ceci prépare l'entrée pour la recherche, où le filtre ngram n'est pas requis.

Analyseur de téléphone

Pour les numéros de téléphone, l'index_phone_analyzer utilise le digit_edge_ngram_tokenizer pour générer des ngrammes de différentes longueurs. (1 à 15 caractères) commençant par un chiffre. Cela permet de faire correspondre n’importe quel préfixe d’un numéro de téléphone. Le filtre de caractères digit_only supprime les caractères non numériques pour garantir que seules les valeurs numériques sont analysées.

Le search_phone_analyzer utilise le mot-clé tokenizer, qui génère un seul jeton à partir de l'entrée, permettant une correspondance exacte des numéros de téléphone.

Implémentation des analyseurs

Voici un exemple de mappage qui intègre ces analyseurs personnalisés :

PUT myindex
{
  "settings": {
    "analysis": {
      "analyzer": {
        "email_url_analyzer": {
          "type": "custom",
          "tokenizer": "uax_url_email",
          "filter": [ "trim" ]
        },
        "index_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "digit_edge_ngram_tokenizer",
          "filter": [ "trim" ]
        },
        "search_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "keyword",
          "filter": [ "trim" ]
        },
        "index_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "name_ngram_filter", "trim" ]
        },
        "search_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "trim" ]
        }
      },
      "char_filter": {
        "digit_only": {
          "type": "pattern_replace",
          "pattern": "\D+",
          "replacement": ""
        }
      },
      "tokenizer": {
        "digit_edge_ngram_tokenizer": {
          "type": "edgeNGram",
          "min_gram": "1",
          "max_gram": "15",
          "token_chars": [ "digit" ]
        }
      },
      "filter": {
        "name_ngram_filter": {
          "type": "ngram",
          "min_gram": "1",
          "max_gram": "20"
        }
      }
    }
  },
  "mappings": {
    "your_type": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "index_email_analyzer",
          "search_analyzer": "search_email_analyzer"
        },
        "phone": {
          "type": "string",
          "analyzer": "index_phone_analyzer",
          "search_analyzer": "search_phone_analyzer"
        }
      }
    }
  }
}

Exécution de requêtes floues

Pour faire correspondre les e-mails se terminant par "@gmail.com" ou les numéros de téléphone commençant par "136", vous pouvez émettre des requêtes telles que :

POST myindex
{
  "query": {
    "term": {
      "email": "@gmail.com"
    }
  }
}

POST myindex
{
  "query": {
    "term": {
      "phone": "136"
    }
  }
}

Ces requêtes exploiteront les analyseurs personnalisés pour générer les ngrammes nécessaires pour le flou correspondant.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Quelles sont les limites de l'utilisation de vues dans MySQL?May 14, 2025 am 12:10 AM

MySQLViewShavelimitations: 1) Theydon'tsupportalLSQLOPERations, restreignantDatamanipulation à travers la vue

Sécuriser votre base de données MySQL: ajouter des utilisateurs et accorder des privilègesMay 14, 2025 am 12:09 AM

La bonne gestion de la gestion de la direction

Quels facteurs influencent le nombre de déclencheurs que je peux utiliser dans MySQL?May 14, 2025 am 12:08 AM

MySQLDOES NONTIMPOSEAHARDLIMITORSTRIGRERS, BUTPRATICALFACTORSEDERTERMINETHEIREFFECTYUSE: 1) ServerConfiguration ImpactStriggerManagement; 2) ComplexTriggersInCreasgeSystemload; 3) LargerTableSlowtriggerPerformance; 4) HighCunCurrencyCanCauseTr fichestring; 5) M) M

MySQL: Est-il sûr de stocker blob?May 14, 2025 am 12:07 AM

Oui, il estafetostoreblobdatainmysql, maisonssider cesfacteurs: 1) stockage: BlobScConSugnifants espace, potentiellement en augmentation

MySQL: ajout d'un utilisateur via une interface Web PHPMay 14, 2025 am 12:04 AM

L'ajout d'utilisateurs de MySQL via l'interface Web PHP peut utiliser les extensions MySQLI. Les étapes sont les suivantes: 1. Connectez-vous à la base de données MySQL et utilisez l'extension MySQLI. 2. Créez un utilisateur, utilisez l'instruction CreateUser et utilisez la fonction Password () pour crypter le mot de passe. 3. Empêchez l'injection SQL et utilisez la fonction mysqli_real_escape_string () pour traiter l'entrée de l'utilisateur. 4. Attribuez des autorisations aux nouveaux utilisateurs et utilisez la déclaration de subvention.

MySQL: Blob et autres stockages sans SQL, quelles sont les différences?May 13, 2025 am 12:14 AM

MySQL'sblobissuitable ForstoringBinaryDatawithInarelationDatabase, WhileLenosqloloptionsLikEmongoDB, redis et Cassandraofferflexible, ScalablesButions forununstructureddata.blobissimplerbutcanslowdownporduit

MySQL Ajouter un utilisateur: syntaxe, options et meilleures pratiques de sécuritéMay 13, 2025 am 12:12 AM

ToaddauserRinmysql, utilisation: CreateUser'Username '@' host'identifiedBy'password '; ici'showtodoitsecurely: 1) ChoosetheHostCarelyToCon trolaccess.2) setResourcelimits withoptionslikemax_queries_per_hour.3) usestrong, uniquepasswords.4) Enforcessl / tlsconnectionwith

MySQL: Comment éviter les types de données de chaîne des erreurs courantes?May 13, 2025 am 12:09 AM

ToavoidcomMonmistakeswithstringDatatyPesInmysql, compréhension de compréhension, chooseTherightType, andManageEncodingAndCollationSettingSeffectively.1) usECHARFORFIXED-LEGLINGSTRING

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semainesByDDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semainesByDDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

SublimeText3 version anglaise

Recommandé : version Win, prend en charge les invites de code !

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

Afficher plus

Sujets chauds

1675

1429

1333

1278

1257