Maison >Périphériques technologiques >IA >Stratégies et méthodes de regroupement de documents d'assurance à l'aide du traitement du langage naturel
Traducteur | Li Rui
Réviseur | Sun Shujuan
Le traitement du langage naturel (NLP) dans le secteur de l'assurance peut bénéficier d'une approche hybride apprentissage automatique/symbolique pour améliorer l'évolutivité tout en tirant parti du raisonnement symbolique avancé.
On sait que jusqu'à 87 % des projets de science des données ne parviennent pas à passer de la preuve de concept à la production. Les projets de traitement du langage naturel (NLP) dans le domaine de l'assurance ne le sont pas ; exception. Ils doivent surmonter certaines des difficultés inévitablement associées à cet espace et à ses subtilités.
Les principales difficultés viennent de :
La complexité de la mise en page est si grande qu'un même concept linguistique peut changer radicalement de sens et de valeur selon l'endroit où il est placé dans le document.
Regardez un exemple simple ci-dessous : Si vous essayez de construire un moteur pour identifier si une couverture « terrorisme » est présente dans une police, vous devrez attribuer une valeur différente quel que soit l'endroit où elle est placée :
(1) Déclaration page Partie sous-limite.
(2) Section « Exclusion » de la police.
(3) Ajoutez un ou plusieurs avenants d'assurance.
(4) Ajoutez des mentions spécifiques à la couverture.
Le manque de corpus de documents d'assurance annotés de haute qualité et de taille appropriée est directement lié à la difficulté inhérente à l'annotation de documents aussi complexes et à la quantité d'efforts requis pour annoter des dizaines de milliers de polices.
Et ce n'est que la pointe de l'iceberg. Au-delà de cela, il faut également considérer la nécessité de normaliser la notion d’assurance.
Lorsqu'il s'agit de bases de données, la normalisation des concepts est un processus bien compris. Parce qu’elle est essentielle pour appliquer le raisonnement et augmenter la vitesse du processus d’annotation, elle est également cruciale pour la PNL dans le domaine de l’assurance.
Le concept de normalisation signifie le regroupement sous les mêmes éléments de langage de balises, qui peuvent sembler très différents. Bien qu’il existe de nombreux exemples, les plus importants proviennent des polices d’assurance couvrant les catastrophes naturelles.
Dans ce cas, différentes sous-limites s'appliqueront aux différentes zones inondables. Les zones présentant le risque d'inondation le plus élevé sont souvent appelées « zones d'inondation à haut risque ». Ce concept peut être représenté comme suit :
(1) Zone inondable de niveau 1
(2) Zone à risque d'inondation (SFHA)
(3) Zone inondable A
et ainsi de suite
En fait, n'importe quelle couverture d'assurance peut y avoir Il existe de nombreux termes qui peuvent être regroupés, la couverture des catastrophes naturelles la plus importante ayant même deux ou trois niveaux de distinction (I, II et III) en fonction de la zone géographique spécifique et des risques inhérents.
Multipliez cela par tous les éléments possibles que vous pouvez trouver et le nombre de variantes peut vite devenir très important. Cela entraîne l'enlisement des annotateurs d'apprentissage automatique et des moteurs de traitement du langage naturel (NLP) lorsqu'ils tentent de récupérer, de déduire ou même d'étiqueter les informations correctes.
Une meilleure façon de résoudre des tâches complexes de traitement du langage naturel (NLP) repose sur des techniques hybrides (apprentissage automatique/symbolique) qui améliorent le travail d'assurance grâce au clustering microlinguistique basé sur l'apprentissage automatique. les résultats et le cycle de vie du processus sont ensuite hérités par le moteur symbolique.
Alors que le regroupement de textes traditionnel est utilisé dans les méthodes d'apprentissage non supervisées pour déduire des modèles sémantiques et regrouper des documents ayant des sujets similaires, des phrases ayant des significations similaires, etc., les méthodes hybrides sont assez différentes. Les clusters microlinguistiques sont créés à un niveau granulaire à l'aide d'algorithmes d'apprentissage automatique entraînés sur des données étiquetées à l'aide de valeurs normalisées prédéfinies. Une fois qu'un cluster microlinguistique est déduit, il peut être utilisé dans d'autres activités d'apprentissage automatique ou dans une logique d'inférence pilotée par des pipelines hybrides basée sur des couches symboliques.
Cela s'inscrit dans la règle d'or traditionnelle de la programmation : « décomposer le problème ». La première étape pour résoudre un cas d’utilisation complexe (comme la plupart des cas d’utilisation dans le domaine de l’assurance) consiste à le diviser en morceaux plus petits et plus acceptables.
Les moteurs symboliques sont souvent qualifiés d'extrêmement précis mais non évolutifs car ils n'ont pas la flexibilité de l'apprentissage automatique lorsqu'il s'agit de gérer des situations non vues pendant la phase de formation.
Cependant, ce type de clustering de langage résout ce problème en tirant parti de l'apprentissage automatique pour identifier les concepts qui sont ensuite transmis à la logique complexe et précise du moteur symbolique suivant dans le pipeline.
Les possibilités sont infinies : par exemple, des étapes symboliques peuvent modifier la valeur intrinsèque de la reconnaissance par apprentissage automatique en fonction du segment de document auquel appartient le concept.
Voici un exemple d'utilisation du processus de notation de « segmentation » (divisation du texte en régions pertinentes) pour voir comment utiliser les étiquettes transmises par le module d'apprentissage automatique.
Imaginez que le modèle doive comprendre si certaines couvertures sont exclues d'une police de 100 pages.
Le moteur d'apprentissage automatique regroupera dans un premier temps toutes les variantes possibles de la couverture « Arts » :
Suite à cela, la partie symboles du pipeline vérifiera si la section « Exclusions » mentionne la balise « Arts » pour comprendre si la couverture est exclue de la police, ou si elle est couverte (sous forme de liste de sous-limites) partie).
Pour cette raison, les annotateurs de machine learning n'ont pas à se soucier d'attribuer des étiquettes différentes à toutes les variantes « Arts » en fonction de leur position dans la politique : il leur suffit d'annoter leurs variantes avec « Arts » ( Arts), ce qui servir de cluster de micro-langages.
Un autre exemple utile de tâches complexes est l'agrégation de données. Si le moteur hybride est conçu pour extraire les sous-restrictions d'une couverture spécifique, ainsi que les problèmes de normalisation de la couverture, il existe un niveau de complexité supplémentaire à gérer : l'ordre des éléments de langue utilisés pour l'agrégation.
Considérez que la tâche à accomplir est d'extraire non seulement les sous-limites d'une couverture spécifique, mais également ses qualificatifs (par événement, agrégation, etc.). Ces trois articles peuvent être disposés dans plusieurs ordres différents :
Dans l'ensemble Exploiter tout ces permutations simultanées de données peuvent augmenter considérablement la complexité des modèles d’apprentissage automatique. Une approche hybride, en revanche, permettrait au modèle d'apprentissage automatique d'identifier les étiquettes normalisées, puis au raisonnement symbolique d'identifier l'ordre correct en fonction des données d'entrée de la partie d'apprentissage automatique.
Ce ne sont là que deux exemples qui montrent qu'une quantité illimitée de logique et de raisonnement symboliques complexes peuvent être appliqués en plus d'algorithmes d'apprentissage automatique évolutifs pour identifier des concepts normalisés.
En plus de l'évolutivité, le raisonnement symbolique apporte d'autres avantages au workflow global du projet :
Titre original : Politiques d'assurance : regroupement de documents via la PNL hybride, auteur : Stefano Reitano
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!