Maison  >  Article  >  Périphériques technologiques  >  Stratégies et méthodes de regroupement de documents d'assurance à l'aide du traitement du langage naturel

Stratégies et méthodes de regroupement de documents d'assurance à l'aide du traitement du langage naturel

WBOY
WBOYavant
2023-04-22 10:46:08905parcourir

Traducteur | Li Rui

Réviseur | Sun Shujuan

Le traitement du langage naturel (NLP) dans le secteur de l'assurance peut bénéficier d'une approche hybride apprentissage automatique/symbolique pour améliorer l'évolutivité tout en tirant parti du raisonnement symbolique avancé.

Stratégies et méthodes de regroupement de documents dassurance à laide du traitement du langage naturel

Documents et polices d'assurance : cas d'utilisation complexes

On sait que jusqu'à 87 % des projets de science des données ne parviennent pas à passer de la preuve de concept à la production. Les projets de traitement du langage naturel (NLP) dans le domaine de l'assurance ne le sont pas ; exception. Ils doivent surmonter certaines des difficultés inévitablement associées à cet espace et à ses subtilités.

Les principales difficultés viennent de :

  • La présentation complexe des documents liés à l'assurance.
  • Manque de corpus volumineux avec des annotations pertinentes.

La complexité de la mise en page est si grande qu'un même concept linguistique peut changer radicalement de sens et de valeur selon l'endroit où il est placé dans le document.

Regardez un exemple simple ci-dessous : Si vous essayez de construire un moteur pour identifier si une couverture « terrorisme » est présente dans une police, vous devrez attribuer une valeur différente quel que soit l'endroit où elle est placée :

(1) Déclaration page Partie sous-limite.

(2) Section « Exclusion » de la police.

(3) Ajoutez un ou plusieurs avenants d'assurance.

(4) Ajoutez des mentions spécifiques à la couverture.

Le manque de corpus de documents d'assurance annotés de haute qualité et de taille appropriée est directement lié à la difficulté inhérente à l'annotation de documents aussi complexes et à la quantité d'efforts requis pour annoter des dizaines de milliers de polices.

Et ce n'est que la pointe de l'iceberg. Au-delà de cela, il faut également considérer la nécessité de normaliser la notion d’assurance.

La normalisation du langage : une force invisible mais puissante dans le langage de l'assurance

Lorsqu'il s'agit de bases de données, la normalisation des concepts est un processus bien compris. Parce qu’elle est essentielle pour appliquer le raisonnement et augmenter la vitesse du processus d’annotation, elle est également cruciale pour la PNL dans le domaine de l’assurance.

Le concept de normalisation signifie le regroupement sous les mêmes éléments de langage de balises, qui peuvent sembler très différents. Bien qu’il existe de nombreux exemples, les plus importants proviennent des polices d’assurance couvrant les catastrophes naturelles.

Dans ce cas, différentes sous-limites s'appliqueront aux différentes zones inondables. Les zones présentant le risque d'inondation le plus élevé sont souvent appelées « zones d'inondation à haut risque ». Ce concept peut être représenté comme suit :

(1) Zone inondable de niveau 1

(2) Zone à risque d'inondation (SFHA)

(3) Zone inondable A

et ainsi de suite

En fait, n'importe quelle couverture d'assurance peut y avoir Il existe de nombreux termes qui peuvent être regroupés, la couverture des catastrophes naturelles la plus importante ayant même deux ou trois niveaux de distinction (I, II et III) en fonction de la zone géographique spécifique et des risques inhérents.

Multipliez cela par tous les éléments possibles que vous pouvez trouver et le nombre de variantes peut vite devenir très important. Cela entraîne l'enlisement des annotateurs d'apprentissage automatique et des moteurs de traitement du langage naturel (NLP) lorsqu'ils tentent de récupérer, de déduire ou même d'étiqueter les informations correctes.

Un nouveau type de clustering linguistique : une approche hybride

Une meilleure façon de résoudre des tâches complexes de traitement du langage naturel (NLP) repose sur des techniques hybrides (apprentissage automatique/symbolique) qui améliorent le travail d'assurance grâce au clustering microlinguistique basé sur l'apprentissage automatique. les résultats et le cycle de vie du processus sont ensuite hérités par le moteur symbolique.

Alors que le regroupement de textes traditionnel est utilisé dans les méthodes d'apprentissage non supervisées pour déduire des modèles sémantiques et regrouper des documents ayant des sujets similaires, des phrases ayant des significations similaires, etc., les méthodes hybrides sont assez différentes. Les clusters microlinguistiques sont créés à un niveau granulaire à l'aide d'algorithmes d'apprentissage automatique entraînés sur des données étiquetées à l'aide de valeurs normalisées prédéfinies. Une fois qu'un cluster microlinguistique est déduit, il peut être utilisé dans d'autres activités d'apprentissage automatique ou dans une logique d'inférence pilotée par des pipelines hybrides basée sur des couches symboliques.

Cela s'inscrit dans la règle d'or traditionnelle de la programmation : « décomposer le problème ». La première étape pour résoudre un cas d’utilisation complexe (comme la plupart des cas d’utilisation dans le domaine de l’assurance) consiste à le diviser en morceaux plus petits et plus acceptables.

Quelles tâches le clustering multilingue peut-il accomplir et dans quelle mesure est-il évolutif ?

Les moteurs symboliques sont souvent qualifiés d'extrêmement précis mais non évolutifs car ils n'ont pas la flexibilité de l'apprentissage automatique lorsqu'il s'agit de gérer des situations non vues pendant la phase de formation.

Cependant, ce type de clustering de langage résout ce problème en tirant parti de l'apprentissage automatique pour identifier les concepts qui sont ensuite transmis à la logique complexe et précise du moteur symbolique suivant dans le pipeline.

Les possibilités sont infinies : par exemple, des étapes symboliques peuvent modifier la valeur intrinsèque de la reconnaissance par apprentissage automatique en fonction du segment de document auquel appartient le concept.

Voici un exemple d'utilisation du processus de notation de « segmentation » (divisation du texte en régions pertinentes) pour voir comment utiliser les étiquettes transmises par le module d'apprentissage automatique.

Imaginez que le modèle doive comprendre si certaines couvertures sont exclues d'une police de 100 pages.

Le moteur d'apprentissage automatique regroupera dans un premier temps toutes les variantes possibles de la couverture « Arts » :

  • « Beaux-Arts »
  • « Œuvre d'Art »
  • « Objets artistiques d'art
  • Bijoux
  • et ainsi de suite.

Suite à cela, la partie symboles du pipeline vérifiera si la section « Exclusions » mentionne la balise « Arts » pour comprendre si la couverture est exclue de la police, ou si elle est couverte (sous forme de liste de sous-limites) partie).

Pour cette raison, les annotateurs de machine learning n'ont pas à se soucier d'attribuer des étiquettes différentes à toutes les variantes « Arts » en fonction de leur position dans la politique : il leur suffit d'annoter leurs variantes avec « Arts » ( Arts), ce qui servir de cluster de micro-langages.

Un autre exemple utile de tâches complexes est l'agrégation de données. Si le moteur hybride est conçu pour extraire les sous-restrictions d'une couverture spécifique, ainsi que les problèmes de normalisation de la couverture, il existe un niveau de complexité supplémentaire à gérer : l'ordre des éléments de langue utilisés pour l'agrégation.

Considérez que la tâche à accomplir est d'extraire non seulement les sous-limites d'une couverture spécifique, mais également ses qualificatifs (par événement, agrégation, etc.). Ces trois articles peuvent être disposés dans plusieurs ordres différents :

  • Beaux-Arts 100 000 $ par article
  • Beaux-Arts par article 100 000 $
  • Par article 100 000 $ Beaux-Arts
  • 100 000 $ Beaux-Arts
  • Beaux-Arts 100 000 $

Dans l'ensemble Exploiter tout ces permutations simultanées de données peuvent augmenter considérablement la complexité des modèles d’apprentissage automatique. Une approche hybride, en revanche, permettrait au modèle d'apprentissage automatique d'identifier les étiquettes normalisées, puis au raisonnement symbolique d'identifier l'ordre correct en fonction des données d'entrée de la partie d'apprentissage automatique.

Ce ne sont là que deux exemples qui montrent qu'une quantité illimitée de logique et de raisonnement symboliques complexes peuvent être appliqués en plus d'algorithmes d'apprentissage automatique évolutifs pour identifier des concepts normalisés.

Des workflows évolutifs plus faciles à créer et à maintenir

En plus de l'évolutivité, le raisonnement symbolique apporte d'autres avantages au workflow global du projet :

  • Pas besoin d'implémenter différents workflows d'apprentissage automatique pour des tâches complexes, différentes balises doivent être implémentées et entretenu. De plus, le recyclage d’un seul modèle d’apprentissage automatique est plus rapide et consomme moins de ressources que le recyclage de plusieurs modèles.
  • Étant donné que les parties complexes de la logique métier sont traitées symboliquement, il est beaucoup plus facile pour les annotateurs de données d'ajouter des annotations humaines aux pipelines d'apprentissage automatique.
  • Pour les mêmes raisons mentionnées ci-dessus, il est également plus facile pour les testeurs de fournir des commentaires directement au processus de standardisation du machine learning. De plus, étant donné que la partie apprentissage automatique du flux de travail normalise les éléments de langage, les utilisateurs disposeront d'une liste plus petite de balises avec lesquelles étiqueter les documents.
  • Les règles symboliques n'ont pas besoin d'être mises à jour fréquemment : ce qui est fréquemment mis à jour, c'est la partie machine learning, qui bénéficie également des retours des utilisateurs.

Conclusion

  • L'apprentissage automatique dans les projets complexes dans le domaine de l'assurance peut en souffrir car la logique d'inférence est difficile à compresser en simples balises ; cela rend également la vie de l'annotateur plus difficile ;
  • Le placement du texte et les inférences peuvent changer radicalement le sens réel des concepts ayant la même forme linguistique.
  • Dans un flux de travail d'apprentissage automatique pur, plus la logique est complexe, plus de documents de formation sont généralement nécessaires pour atteindre une précision au niveau de la production.
  • Pour cette raison, le machine learning nécessite des milliers (voire des dizaines de milliers) de documents pré-étiquetés pour construire des modèles efficaces.
  • Une approche hybride réduit la complexité : l'apprentissage automatique et les annotations des utilisateurs créent des clusters/balises de langage, et ceux-ci sont ensuite utilisés comme points de départ ou éléments de base pour que le moteur symbolique atteigne ses objectifs.
  • Les retours utilisateurs, une fois validés, peuvent être utilisés pour recycler le modèle sans modifier les parties les plus granulaires (qui peuvent être gérées par la partie symbolique du workflow).

Titre original : Politiques d'assurance : regroupement de documents via la PNL hybride, auteur : Stefano Reitano

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer