Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Strategien und Methoden zum Clustering von Versicherungsdokumenten mithilfe natürlicher Sprachverarbeitung

Strategien und Methoden zum Clustering von Versicherungsdokumenten mithilfe natürlicher Sprachverarbeitung

WBOY
WBOYnach vorne
2023-04-22 10:46:08905Durchsuche

Übersetzer |. Li Rui

Rezensent |. Die Verarbeitung natürlicher Sprache (NLP) in der Versicherungsbranche kann von einem hybriden maschinellen Lern-/Symbolansatz profitieren, um die Skalierbarkeit zu verbessern und gleichzeitig fortgeschrittenes symbolisches Denken zu nutzen.

Strategien und Methoden zum Clustering von Versicherungsdokumenten mithilfe natürlicher SprachverarbeitungVersicherungsdokumente und -policen: Komplexe Anwendungsfälle

Es ist bekannt, dass bis zu 87 % der Data-Science-Projekte im Versicherungsbereich nicht vom Proof of Concept zur Produktion übergehen; Ausnahme. Sie müssen einige der Schwierigkeiten überwinden, die zwangsläufig mit diesem Raum und seinen Feinheiten verbunden sind.

Die Hauptschwierigkeiten ergeben sich aus:

Der komplexen Gestaltung versicherungsbezogener Dokumente.
  • Mangel an großem Korpus mit relevanten Anmerkungen.
  • Die Komplexität des Layouts ist so groß, dass das gleiche Sprachkonzept seine Bedeutung und seinen Wert drastisch ändern kann, je nachdem, wo es im Dokument platziert wird.

Sehen Sie sich unten ein einfaches Beispiel an: Wenn Sie versuchen, eine Engine zu erstellen, um festzustellen, ob in einer Police eine Abdeckung „Terrorismus“ vorhanden ist, müssen Sie unabhängig von der Platzierung einen anderen Wert zuweisen:

(1) Erklärung Seite Sub-Limit-Teil.

(2) Abschnitt „Ausschluss“ der Richtlinie.

(3) Fügen Sie einen oder mehrere Versicherungsvermerke hinzu.

(4) Fügen Sie der Berichterstattung spezifische Vermerke hinzu.

Der Mangel an qualitativ hochwertigen, angemessen großen, kommentierten Korpora von Versicherungsdokumenten steht in direktem Zusammenhang mit der inhärenten Schwierigkeit, solche komplexen Dokumente zu kommentieren, und mit dem Aufwand, der für die Kommentierung Zehntausender Policen erforderlich ist.

Und das ist nur die Spitze des Eisbergs. Darüber hinaus ist auch die Notwendigkeit einer Normalisierung des Versicherungsbegriffs zu berücksichtigen.

Sprachnormalisierung: eine unsichtbare, aber mächtige Kraft in der Versicherungssprache

Beim Umgang mit Datenbanken ist die Normalisierung von Konzepten ein wohlverstandener Prozess. Da es für die Anwendung von Argumenten und die Beschleunigung des Anmerkungsprozesses von entscheidender Bedeutung ist, ist es auch für NLP im Versicherungsbereich von entscheidender Bedeutung.

Normalisierungskonzept bedeutet, Sprachelemente unter demselben Tag zu gruppieren, die sehr unterschiedlich aussehen können. Obwohl es viele Beispiele gibt, stammen die wichtigsten aus Versicherungspolicen, die Naturkatastrophen abdecken.

In diesem Fall gelten für verschiedene Überschwemmungsgebiete unterschiedliche Untergrenzwerte. Gebiete mit dem höchsten Hochwasserrisiko werden oft als „Hochwasserrisikogebiete“ bezeichnet. Dieses Konzept kann wie folgt dargestellt werden:

(1) Überschwemmungsgebiet der Stufe 1

(2) Überschwemmungsgebiet (SFHA)

(3) Überschwemmungsgebiet A

und so weiter

Eigentlich kann dort jeder Versicherungsschutz bestehen Es gibt viele Begriffe, die in Gruppen zusammengefasst werden können, wobei die wichtigste Naturkatastrophenversicherung je nach geografischem Gebiet und den damit verbundenen Risiken sogar zwei oder drei Unterscheidungsstufen (I, II und III) aufweist.

Multiplizieren Sie dies mit allen möglichen Elementen, die Sie finden können, und die Anzahl der Varianten kann schnell sehr groß werden. Dies führt dazu, dass sowohl Annotatoren für maschinelles Lernen als auch NLP-Engines (Natural Language Processing) beim Versuch, die richtigen Informationen abzurufen, abzuleiten oder sogar zu kennzeichnen, ins Stocken geraten.

Eine neue Art des linguistischen Clusterings: ein hybrider Ansatz

Eine bessere Möglichkeit zur Lösung komplexer NLP-Aufgaben (Natural Language Processing) basiert auf hybriden (maschinellen Lern-/symbolischen) Techniken, die die Versicherungsarbeit durch maschinelles Lernen basierendes mikrolinguistisches Clustering verbessern Ergebnisse und Lebenszyklus des Prozesses werden dann von der symbolischen Engine geerbt.

Während traditionelles Text-Clustering in unüberwachten Lernmethoden verwendet wird, um semantische Muster abzuleiten und Dokumente mit ähnlichen Themen, Sätzen mit ähnlicher Bedeutung usw. zu gruppieren, sind Hybridmethoden ganz anders. Mikrolinguistische Cluster werden auf granularer Ebene mithilfe von Algorithmen für maschinelles Lernen erstellt, die auf gekennzeichneten Daten unter Verwendung vordefinierter normalisierter Werte trainiert werden. Sobald ein mikrolinguistischer Cluster abgeleitet ist, kann er in weiteren Aktivitäten des maschinellen Lernens oder in hybrider Pipelines-gesteuerter Inferenzlogik basierend auf symbolischen Schichten verwendet werden.

Dies steht im Einklang mit der traditionellen goldenen Programmierregel: „Brich das Problem auf“. Der erste Schritt bei der Lösung eines komplexen Anwendungsfalls (wie die meisten Anwendungsfälle im Versicherungsbereich) besteht darin, ihn in kleinere, schmackhaftere Teile zu zerlegen.

Welche Aufgaben kann Mixed-Language-Clustering erfüllen und wie skalierbar ist es?

Symbolische Engines werden oft als äußerst genau, aber nicht skalierbar bezeichnet, da sie nicht über die Flexibilität des maschinellen Lernens verfügen, wenn es darum geht, Situationen zu bewältigen, die während der Trainingsphase nicht auftreten.

Diese Art der Sprachclusterung löst dieses Problem jedoch, indem sie maschinelles Lernen nutzt, um Konzepte zu identifizieren, die dann an die komplexe und präzise Logik der nächsten symbolischen Engine in der Pipeline übergeben werden.

Die Möglichkeiten sind endlos: Symbolische Schritte können beispielsweise den inneren Wert der Erkennung durch maschinelles Lernen basierend auf dem Dokumentsegment ändern, zu dem das Konzept gehört.

Hier ist ein Beispiel für die Verwendung des Notationsprozesses der „Segmentierung“ (Aufteilen von Text in relevante Bereiche), um zu sehen, wie die vom Modul für maschinelles Lernen übergebenen Beschriftungen verwendet werden.

Stellen Sie sich vor, ein Model muss verstehen, ob bestimmte Deckungen von einer 100-seitigen Police ausgeschlossen sind.

Die Engine für maschinelles Lernen führt zunächst alle möglichen Variationen der „Kunst“-Abdeckung zusammen:

  • „Bildende Kunst“
  • „Kunstwerk“
  • „Kunst, künstlerische Gegenstände
  • Schmuck
  • und so weiter.“

Anschließend prüft der Abschnitt „Symbole“ der Pipeline, ob das Tag „Kunst“ im Abschnitt „Ausschlüsse“ erwähnt wird, um zu verstehen, ob der Versicherungsschutz von der Police ausgeschlossen ist oder ob er abgedeckt ist (als Sub -Limitliste) Teil).

Aus diesem Grund müssen sich Annotatoren für maschinelles Lernen nicht darum kümmern, allen „Arts“-Varianten basierend auf ihrer Position in der Richtlinie unterschiedliche Bezeichnungen zuzuweisen: Sie müssen ihre Varianten lediglich mit „Arts“ (Arts) annotieren, was der Fall ist dienen als Mikrosprachencluster.

Ein weiteres nützliches Beispiel für komplexe Aufgaben ist die Datenaggregation. Wenn die Hybrid-Engine darauf ausgelegt ist, Unterbeschränkungen einer bestimmten Abdeckung sowie Probleme bei der Abdeckungsnormalisierung zu extrahieren, muss mit einer zusätzlichen Komplexitätsebene umgegangen werden: der Reihenfolge der für die Aggregation verwendeten Sprachelemente.

Bedenken Sie, dass die anstehende Aufgabe nicht nur darin besteht, die Untergrenzen einer bestimmten Abdeckung zu extrahieren, sondern auch deren Qualifikationsmerkmale (pro Ereignis, Aggregation usw.). Diese drei Artikel können in verschiedenen Reihenfolgen angeordnet werden:

  • Bildende Kunst 100.000 $ pro Artikel
  • Bildende Kunst pro Artikel 100.000 $
  • Pro Artikel 100.000 $ Bildende Kunst
  • 100.000 $ Bildende Kunst
  • Bildende Kunst 100.000 $

In Aggregation Alles ausnutzen Diese Datenpermutationen können gleichzeitig die Komplexität von Modellen für maschinelles Lernen erheblich erhöhen. Ein hybrider Ansatz hingegen würde es dem Modell des maschinellen Lernens ermöglichen, die normalisierten Bezeichnungen zu identifizieren und dann die symbolische Argumentation die richtige Reihenfolge basierend auf den Eingabedaten aus dem Teil des maschinellen Lernens ermitteln zu lassen.

Dies sind nur zwei Beispiele, die zeigen, dass eine unbegrenzte Menge komplexer symbolischer Logik und Argumentation auf skalierbare Algorithmen für maschinelles Lernen angewendet werden kann, um normalisierte Konzepte zu identifizieren.

Skalierbare Workflows, die einfacher zu erstellen und zu warten sind

Neben der Skalierbarkeit bringt symbolisches Denken weitere Vorteile für den gesamten Projektworkflow:

  • Für komplexe Aufgaben müssen keine unterschiedlichen Machine-Learning-Workflows implementiert werden, sondern es müssen unterschiedliche Tags implementiert werden und gepflegt. Darüber hinaus ist die Neuschulung eines einzelnen Modells für maschinelles Lernen schneller und verbraucht weniger Ressourcen als die Neuschulung mehrerer Modelle.
  • Da komplexe Teile der Geschäftslogik symbolisch gehandhabt werden, ist es für Datenannotatoren viel einfacher, menschliche Annotationen zu Pipelines für maschinelles Lernen hinzuzufügen.
  • Aus den oben genannten Gründen ist es für Tester auch einfacher, direkt Feedback zum Standardisierungsprozess für maschinelles Lernen zu geben. Da der maschinelle Lernteil des Workflows außerdem Sprachelemente normalisiert, verfügen Benutzer über eine kleinere Liste von Tags, mit denen sie Dokumente kennzeichnen können.
  • Die symbolischen Regeln müssen nicht häufig aktualisiert werden: Was häufig aktualisiert wird, ist der Teil des maschinellen Lernens, der auch vom Benutzerfeedback profitiert.

Fazit

  • Maschinelles Lernen in komplexen Projekten im Versicherungsbereich kann leiden, weil sich die Inferenzlogik nur schwer in einfache Tags komprimieren lässt, was auch das Leben des Annotators erschwert.
  • Textplatzierung und Schlussfolgerungen können die tatsächliche Bedeutung von Konzepten mit derselben sprachlichen Form drastisch verändern.
  • In einem rein maschinellen Lernworkflow gilt: Je komplexer die Logik, desto mehr Schulungsdokumente sind in der Regel erforderlich, um Genauigkeit auf Produktionsebene zu erreichen.
  • Aus diesem Grund erfordert maschinelles Lernen Tausende (oder sogar Zehntausende) vorbeschriftete Dokumente, um effektive Modelle zu erstellen.
  • Ein hybrider Ansatz reduziert die Komplexität: Durch maschinelles Lernen und Benutzeranmerkungen werden Sprachcluster/Tags erstellt, die dann als Ausgangspunkte oder Bausteine ​​für die symbolische Engine verwendet werden, um ihre Ziele zu erreichen.
  • Sobald das Benutzerfeedback validiert ist, kann es zum erneuten Trainieren des Modells verwendet werden, ohne die granularsten Teile zu ändern (was durch den symbolischen Teil des Workflows gehandhabt werden kann).

Originaltitel: Insurance Policies: Document Clustering Through Hybrid NLP, Autor: Stefano Reitano

Das obige ist der detaillierte Inhalt vonStrategien und Methoden zum Clustering von Versicherungsdokumenten mithilfe natürlicher Sprachverarbeitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen