recherche
MaisonPériphériques technologiquesIAStratégies et méthodes de regroupement de documents d'assurance à l'aide du traitement du langage naturel

Traducteur | Li Rui

Réviseur | Sun Shujuan

Le traitement du langage naturel (NLP) dans le secteur de l'assurance peut bénéficier d'une approche hybride apprentissage automatique/symbolique pour améliorer l'évolutivité tout en tirant parti du raisonnement symbolique avancé.

Stratégies et méthodes de regroupement de documents dassurance à laide du traitement du langage naturel

Documents et polices d'assurance : cas d'utilisation complexes

On sait que jusqu'à 87 % des projets de science des données ne parviennent pas à passer de la preuve de concept à la production. Les projets de traitement du langage naturel (NLP) dans le domaine de l'assurance ne le sont pas ; exception. Ils doivent surmonter certaines des difficultés inévitablement associées à cet espace et à ses subtilités.

Les principales difficultés viennent de :

  • La présentation complexe des documents liés à l'assurance.
  • Manque de corpus volumineux avec des annotations pertinentes.

La complexité de la mise en page est si grande qu'un même concept linguistique peut changer radicalement de sens et de valeur selon l'endroit où il est placé dans le document.

Regardez un exemple simple ci-dessous : Si vous essayez de construire un moteur pour identifier si une couverture « terrorisme » est présente dans une police, vous devrez attribuer une valeur différente quel que soit l'endroit où elle est placée :

(1) Déclaration page Partie sous-limite.

(2) Section « Exclusion » de la police.

(3) Ajoutez un ou plusieurs avenants d'assurance.

(4) Ajoutez des mentions spécifiques à la couverture.

Le manque de corpus de documents d'assurance annotés de haute qualité et de taille appropriée est directement lié à la difficulté inhérente à l'annotation de documents aussi complexes et à la quantité d'efforts requis pour annoter des dizaines de milliers de polices.

Et ce n'est que la pointe de l'iceberg. Au-delà de cela, il faut également considérer la nécessité de normaliser la notion d’assurance.

La normalisation du langage : une force invisible mais puissante dans le langage de l'assurance

Lorsqu'il s'agit de bases de données, la normalisation des concepts est un processus bien compris. Parce qu’elle est essentielle pour appliquer le raisonnement et augmenter la vitesse du processus d’annotation, elle est également cruciale pour la PNL dans le domaine de l’assurance.

Le concept de normalisation signifie le regroupement sous les mêmes éléments de langage de balises, qui peuvent sembler très différents. Bien qu’il existe de nombreux exemples, les plus importants proviennent des polices d’assurance couvrant les catastrophes naturelles.

Dans ce cas, différentes sous-limites s'appliqueront aux différentes zones inondables. Les zones présentant le risque d'inondation le plus élevé sont souvent appelées « zones d'inondation à haut risque ». Ce concept peut être représenté comme suit :

(1) Zone inondable de niveau 1

(2) Zone à risque d'inondation (SFHA)

(3) Zone inondable A

et ainsi de suite

En fait, n'importe quelle couverture d'assurance peut y avoir Il existe de nombreux termes qui peuvent être regroupés, la couverture des catastrophes naturelles la plus importante ayant même deux ou trois niveaux de distinction (I, II et III) en fonction de la zone géographique spécifique et des risques inhérents.

Multipliez cela par tous les éléments possibles que vous pouvez trouver et le nombre de variantes peut vite devenir très important. Cela entraîne l'enlisement des annotateurs d'apprentissage automatique et des moteurs de traitement du langage naturel (NLP) lorsqu'ils tentent de récupérer, de déduire ou même d'étiqueter les informations correctes.

Un nouveau type de clustering linguistique : une approche hybride

Une meilleure façon de résoudre des tâches complexes de traitement du langage naturel (NLP) repose sur des techniques hybrides (apprentissage automatique/symbolique) qui améliorent le travail d'assurance grâce au clustering microlinguistique basé sur l'apprentissage automatique. les résultats et le cycle de vie du processus sont ensuite hérités par le moteur symbolique.

Alors que le regroupement de textes traditionnel est utilisé dans les méthodes d'apprentissage non supervisées pour déduire des modèles sémantiques et regrouper des documents ayant des sujets similaires, des phrases ayant des significations similaires, etc., les méthodes hybrides sont assez différentes. Les clusters microlinguistiques sont créés à un niveau granulaire à l'aide d'algorithmes d'apprentissage automatique entraînés sur des données étiquetées à l'aide de valeurs normalisées prédéfinies. Une fois qu'un cluster microlinguistique est déduit, il peut être utilisé dans d'autres activités d'apprentissage automatique ou dans une logique d'inférence pilotée par des pipelines hybrides basée sur des couches symboliques.

Cela s'inscrit dans la règle d'or traditionnelle de la programmation : « décomposer le problème ». La première étape pour résoudre un cas d’utilisation complexe (comme la plupart des cas d’utilisation dans le domaine de l’assurance) consiste à le diviser en morceaux plus petits et plus acceptables.

Quelles tâches le clustering multilingue peut-il accomplir et dans quelle mesure est-il évolutif ?

Les moteurs symboliques sont souvent qualifiés d'extrêmement précis mais non évolutifs car ils n'ont pas la flexibilité de l'apprentissage automatique lorsqu'il s'agit de gérer des situations non vues pendant la phase de formation.

Cependant, ce type de clustering de langage résout ce problème en tirant parti de l'apprentissage automatique pour identifier les concepts qui sont ensuite transmis à la logique complexe et précise du moteur symbolique suivant dans le pipeline.

Les possibilités sont infinies : par exemple, des étapes symboliques peuvent modifier la valeur intrinsèque de la reconnaissance par apprentissage automatique en fonction du segment de document auquel appartient le concept.

Voici un exemple d'utilisation du processus de notation de « segmentation » (divisation du texte en régions pertinentes) pour voir comment utiliser les étiquettes transmises par le module d'apprentissage automatique.

Imaginez que le modèle doive comprendre si certaines couvertures sont exclues d'une police de 100 pages.

Le moteur d'apprentissage automatique regroupera dans un premier temps toutes les variantes possibles de la couverture « Arts » :

  • « Beaux-Arts »
  • « Œuvre d'Art »
  • « Objets artistiques d'art
  • Bijoux
  • et ainsi de suite.

Suite à cela, la partie symboles du pipeline vérifiera si la section « Exclusions » mentionne la balise « Arts » pour comprendre si la couverture est exclue de la police, ou si elle est couverte (sous forme de liste de sous-limites) partie).

Pour cette raison, les annotateurs de machine learning n'ont pas à se soucier d'attribuer des étiquettes différentes à toutes les variantes « Arts » en fonction de leur position dans la politique : il leur suffit d'annoter leurs variantes avec « Arts » ( Arts), ce qui servir de cluster de micro-langages.

Un autre exemple utile de tâches complexes est l'agrégation de données. Si le moteur hybride est conçu pour extraire les sous-restrictions d'une couverture spécifique, ainsi que les problèmes de normalisation de la couverture, il existe un niveau de complexité supplémentaire à gérer : l'ordre des éléments de langue utilisés pour l'agrégation.

Considérez que la tâche à accomplir est d'extraire non seulement les sous-limites d'une couverture spécifique, mais également ses qualificatifs (par événement, agrégation, etc.). Ces trois articles peuvent être disposés dans plusieurs ordres différents :

  • Beaux-Arts 100 000 $ par article
  • Beaux-Arts par article 100 000 $
  • Par article 100 000 $ Beaux-Arts
  • 100 000 $ Beaux-Arts
  • Beaux-Arts 100 000 $

Dans l'ensemble Exploiter tout ces permutations simultanées de données peuvent augmenter considérablement la complexité des modèles d’apprentissage automatique. Une approche hybride, en revanche, permettrait au modèle d'apprentissage automatique d'identifier les étiquettes normalisées, puis au raisonnement symbolique d'identifier l'ordre correct en fonction des données d'entrée de la partie d'apprentissage automatique.

Ce ne sont là que deux exemples qui montrent qu'une quantité illimitée de logique et de raisonnement symboliques complexes peuvent être appliqués en plus d'algorithmes d'apprentissage automatique évolutifs pour identifier des concepts normalisés.

Des workflows évolutifs plus faciles à créer et à maintenir

En plus de l'évolutivité, le raisonnement symbolique apporte d'autres avantages au workflow global du projet :

  • Pas besoin d'implémenter différents workflows d'apprentissage automatique pour des tâches complexes, différentes balises doivent être implémentées et entretenu. De plus, le recyclage d’un seul modèle d’apprentissage automatique est plus rapide et consomme moins de ressources que le recyclage de plusieurs modèles.
  • Étant donné que les parties complexes de la logique métier sont traitées symboliquement, il est beaucoup plus facile pour les annotateurs de données d'ajouter des annotations humaines aux pipelines d'apprentissage automatique.
  • Pour les mêmes raisons mentionnées ci-dessus, il est également plus facile pour les testeurs de fournir des commentaires directement au processus de standardisation du machine learning. De plus, étant donné que la partie apprentissage automatique du flux de travail normalise les éléments de langage, les utilisateurs disposeront d'une liste plus petite de balises avec lesquelles étiqueter les documents.
  • Les règles symboliques n'ont pas besoin d'être mises à jour fréquemment : ce qui est fréquemment mis à jour, c'est la partie machine learning, qui bénéficie également des retours des utilisateurs.

Conclusion

  • L'apprentissage automatique dans les projets complexes dans le domaine de l'assurance peut en souffrir car la logique d'inférence est difficile à compresser en simples balises ; cela rend également la vie de l'annotateur plus difficile ;
  • Le placement du texte et les inférences peuvent changer radicalement le sens réel des concepts ayant la même forme linguistique.
  • Dans un flux de travail d'apprentissage automatique pur, plus la logique est complexe, plus de documents de formation sont généralement nécessaires pour atteindre une précision au niveau de la production.
  • Pour cette raison, le machine learning nécessite des milliers (voire des dizaines de milliers) de documents pré-étiquetés pour construire des modèles efficaces.
  • Une approche hybride réduit la complexité : l'apprentissage automatique et les annotations des utilisateurs créent des clusters/balises de langage, et ceux-ci sont ensuite utilisés comme points de départ ou éléments de base pour que le moteur symbolique atteigne ses objectifs.
  • Les retours utilisateurs, une fois validés, peuvent être utilisés pour recycler le modèle sans modifier les parties les plus granulaires (qui peuvent être gérées par la partie symbolique du workflow).

Titre original : Politiques d'assurance : regroupement de documents via la PNL hybride, auteur : Stefano Reitano

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Gemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAGemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAApr 17, 2025 am 11:55 AM

Explorer le fonctionnement interne des modèles de langue avec Gemma Scope Comprendre les complexités des modèles de langue IA est un défi important. La sortie de Google de Gemma Scope, une boîte à outils complète, offre aux chercheurs un moyen puissant de plonger

Qui est un analyste de Business Intelligence et comment en devenir un?Qui est un analyste de Business Intelligence et comment en devenir un?Apr 17, 2025 am 11:44 AM

Déverrouiller le succès de l'entreprise: un guide pour devenir un analyste de Business Intelligence Imaginez transformer les données brutes en informations exploitables qui stimulent la croissance organisationnelle. C'est le pouvoir d'un analyste de Business Intelligence (BI) - un rôle crucial dans GU

Comment ajouter une colonne dans SQL? - Analytique VidhyaComment ajouter une colonne dans SQL? - Analytique VidhyaApr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Analyste d'entreprise vs analyste de donnéesAnalyste d'entreprise vs analyste de donnéesApr 17, 2025 am 11:38 AM

Introduction Imaginez un bureau animé où deux professionnels collaborent sur un projet critique. L'analyste commercial se concentre sur les objectifs de l'entreprise, l'identification des domaines d'amélioration et la garantie d'alignement stratégique sur les tendances du marché. Simulé

Que sont le comte et le coude à Excel? - Analytique VidhyaQue sont le comte et le coude à Excel? - Analytique VidhyaApr 17, 2025 am 11:34 AM

Excel Counting and Analysis: Explication détaillée du nombre et des fonctions de compte Le comptage et l'analyse des données précises sont essentiels dans Excel, en particulier lorsque vous travaillez avec de grands ensembles de données. Excel fournit une variété de fonctions pour y parvenir, les fonctions Count et Count sont des outils clés pour compter le nombre de cellules dans différentes conditions. Bien que les deux fonctions soient utilisées pour compter les cellules, leurs cibles de conception sont ciblées sur différents types de données. Faisons des détails spécifiques du comptage et des fonctions de coude, mettons en évidence leurs caractéristiques et différences uniques et apprenez à les appliquer dans l'analyse des données. Aperçu des points clés Comprendre le nombre et le cou

Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Apr 17, 2025 am 11:29 AM

La révolution de l'IA de Google Chrome: une expérience de navigation personnalisée et efficace L'intelligence artificielle (IA) transforme rapidement notre vie quotidienne, et Google Chrome mène la charge dans l'arène de navigation Web. Cet article explore les exciti

Côté humain de l'AI: le bien-être et le quadruple de basCôté humain de l'AI: le bien-être et le quadruple de basApr 17, 2025 am 11:28 AM

Réinventuation d'impact: le quadruple bas Pendant trop longtemps, la conversation a été dominée par une vision étroite de l’impact de l’IA, principalement axée sur le résultat du profit. Cependant, une approche plus holistique reconnaît l'interconnexion de BU

5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaître5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaîtreApr 17, 2025 am 11:24 AM

Les choses évoluent régulièrement vers ce point. L'investissement affluant dans les prestataires de services quantiques et les startups montre que l'industrie comprend son importance. Et un nombre croissant de cas d'utilisation réels émergent pour démontrer sa valeur

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

Navigateur d'examen sécurisé

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel