翻訳者|Li Rui
査読者|Sun Shujuan
保険業界の自然言語処理 (NLP) は、高度なシンボリックを活用しながら、ハイブリッド機械学習/シンボリック アプローチの恩恵を受けてスケーラビリティを向上できます。推論。
保険文書と保険契約: 複雑な使用例
データ サイエンス プロジェクトの最大 87% が概念実証から概念実証への移行に失敗していることはよく知られています。言語処理 (NLP) プロジェクトも例外ではありません。彼らは、この空間とその複雑さに必然的に伴ういくつかの困難を克服しなければなりません。
主な問題点は次のとおりです。
- 保険関連書類の複雑なレイアウト。
- 関連する注釈を備えた大規模なコーパスが不足しています。
レイアウトの複雑さは非常に大きいため、同じ言語概念であっても、文書内のどこに配置されるかによって、その意味や価値が大幅に変わる可能性があります。
簡単な例を見てみましょう: 保険に「テロ」補償が存在するかどうかを識別するエンジンを構築しようとすると、それがどこに配置されているかに関係なく、別の値を割り当てる必要があります:
(1) 宣言ページの一部をサブリミットします。
(2) ポリシーの「除外」セクション。
(3) 1 つ以上の保険裏書きを追加します。
(4) 報道内容に具体的な推奨を追加します。
高品質で適切なサイズの注釈付き保険文書コーパスが不足していることは、このような複雑な文書に注釈を付ける固有の難しさと、数万件の保険契約に注釈を付けるのに必要な労力に直接関係しています。
そして、これは氷山の一角にすぎません。これに加えて、保険の概念を正常化する必要性も考慮する必要があります。
言語の標準化: 保険用語における目には見えない強力な力
データベースを扱う場合、概念の標準化はよく理解されているプロセスです。これは推論を適用し、アノテーション プロセスの速度を上げるための鍵であるため、保険分野における NLP にとっても重要です。
正規化の概念は、要素を同じタグ言語の下にグループ化することを意味しますが、見た目は大きく異なる場合があります。多くの例がありますが、最も重要なものは自然災害をカバーする保険契約です。
この場合、異なる浸水ゾーンには異なるサブリミットが適用されます。洪水の危険性が最も高い地域は、「高リスク洪水地帯」と呼ばれることがあります。この概念は次のように表現できます。
(1) レベル 1 洪水エリア
(2) 洪水リスクエリア (SFHA)
(3) 洪水エリア A
etc
実際には、どの保険にも、グループ化できる多くの条件が含まれています。特定の地理的エリアとその固有のリスクに応じて、最も重要な自然災害補償には 2 つの段階または階層間の違いがあります。層 (I、II、III)。
これに、見つかる可能性のあるすべての要素を乗算すると、バリエーションの数がすぐに非常に大きくなる可能性があります。これにより、機械学習アノテーターと自然言語処理 (NLP) エンジンの両方が、正しい情報を取得、推論、さらにはラベル付けしようとすると行き詰まってしまいます。
新しい言語クラスタリング: ハイブリッド アプローチ
複雑な自然言語処理 (NLP) タスクを解決するより良い方法は、機械学習ベースのクラスタリングを使用するハイブリッド (機械学習/記号) 手法に基づいています。マイクロ言語の導入により、保険ワークフローの結果とライフサイクルが改善され、それがシンボリック エンジンに継承されます。
従来のテキスト クラスタリングは、意味パターンを推測し、同様のトピックや同様の意味を持つ文などを含む文書をグループ化する教師なし学習方法で使用されますが、ハイブリッド方法は大きく異なります。微言語クラスターは、事前定義された正規化値を使用してラベル付きデータでトレーニングされた機械学習アルゴリズムを使用して、粒度レベルで作成されます。マイクロ言語クラスターが推論されると、それをさらなる機械学習アクティビティで使用したり、シンボリック レイヤーに基づいたハイブリッド パイプライン駆動の推論ロジックで使用したりできます。
これは、「問題を分解する」というプログラミングの伝統的な黄金律に沿ったものです。複雑なユースケース (保険業界のほとんどのユースケースと同様) を解決するための最初のステップは、それをより小さく、より使いやすい部分に分割することです。
混合言語クラスタリングはどのようなタスクを実行できますか?また、そのスケーラビリティはどのようなものですか?
シンボリック エンジンは、非常に正確であるものの、トレーニング中に見られなかった状況に対処する際の機械学習の柔軟性がないため、スケーラビリティが低いと言われることがよくあります。
ただし、このタイプの言語クラスタリングでは、機械学習を活用して概念を特定し、パイプラインの次のシンボリック エンジンの複雑で正確なロジックに渡すことで、この問題を解決します。
可能性は無限です。たとえば、記号ステップは、概念が属する文書セグメントに基づいて機械学習認識の本質的な価値を変更できます。
ここでは、「セグメンテーション」(テキストを関連する領域に分割する) の表記プロセスを使用して、機械学習モジュールによって渡されたラベルを使用する方法を示す例を示します。
モデルが、100 ページの保険契約から特定の補償範囲が除外されているかどうかを理解する必要があると想像してください。
機械学習エンジンはまず、「芸術」の対象範囲の考えられるすべてのバリエーションをクラスター化します:
- 「美術」
- 「芸術作品」
- 「アートアイテム」
- 「ジュエリー」
- など。
これに続いて、パイプラインのシンボル部分は、「除外」セクションに「芸術」タグが記載されているかどうかを確認して、その対象範囲がポリシーから除外されているかどうか、または対象となっているかどうかを確認します。 (サブリミットリストの一部として)。
これのおかげで、機械学習のアノテーターは、ポリシー内での位置に基づいてすべてのアーツ バリアントに異なるラベルを割り当てることを心配する必要はありません。バリアントの「アーツ」の正規化された値にアノテーションを付けるだけで済みます。マイクロ言語クラスターとして機能します。
複雑なタスクのもう 1 つの有用な例は、データの集計です。ハイブリッド エンジンが特定のカバレッジのサブ制限やカバレッジの正規化の問題を抽出するように設計されている場合、処理する複雑な層がさらに 1 つあります。それは、集計に使用される言語項目の順序です。
現在のタスクは、特定のカバレッジのサブリミットだけでなく、その修飾子 (イベントごと、集計など) も抽出することであると考えてください。 3 つのアイテムは、いくつかの異なる順序で並べることができます。
- アイテムあたり $100,000 の美術品
- アイテムあたり $100,000
- アイテムあたり $100,000 の美術品
- $100,000 Fine Arts
- Fine Arts $100,000
データを集約する際にこれらの順列をすべて利用すると、機械学習モデルの複雑さが大幅に増加する可能性があります。一方、ハイブリッド アプローチでは、機械学習モデルで正規化されたラベルを識別し、機械学習部分からの入力データに基づいて記号推論で正しい順序を識別します。
これらは、標準的な概念を識別するために、スケーラブルな機械学習アルゴリズムに無制限の量の複雑な記号ロジックと推論を適用できることを示す 2 つの例にすぎません。
構築と保守が容易なスケーラブルなワークフロー
スケーラビリティに加えて、シンボリック推論はプロジェクト ワークフロー全体に次のような利点をもたらします。
- さまざまな実装を行う代わりに、複雑なタスクの機械学習ワークフローでは、さまざまなタグを実装して維持する必要があります。さらに、単一の機械学習モデルを再トレーニングする方が、複数のモデルを再トレーニングするよりも高速で、消費するリソースが少なくなります。
- ビジネス ロジックの複雑な部分は記号的に処理されるため、データ アノテーターが機械学習パイプラインにヒューマン アノテーションを追加するのがはるかに簡単になります。
- 上記と同じ理由により、テスト担当者が機械学習の標準化プロセスに直接フィードバックを提供することも容易になります。さらに、ワークフローの機械学習部分が言語要素を正規化するため、ユーザーがドキュメントにラベルを付けるためのタグのリストが少なくなります。
- シンボル ルールは頻繁に更新する必要はありません。頻繁に更新されるのは機械学習部分であり、ユーザーのフィードバックからも恩恵を受けます。
結論
- 保険分野の複雑なプロジェクトにおける機械学習は、推論ロジックを単純なタグに圧縮することが難しいため、苦しむ可能性があります。これにより、アノテーターの作業もより困難になります。 。
- テキストの位置と推論により、同じ言語形式でも概念の実際の意味が劇的に変わる可能性があります。
- 純粋な機械学習ワークフローでは、ロジックが複雑になればなるほど、実稼働レベルの精度を達成するためにより多くのトレーニング ドキュメントが必要になります。
- このため、機械学習では効果的なモデルを構築するために、事前にラベル付けされた数千 (または数万) のドキュメントが必要になります。
- ハイブリッド アプローチを採用することで複雑さが軽減されます。機械学習とユーザー アノテーションによって言語クラスター/タグが作成され、これらはシンボリック エンジンが目標を達成するための開始点または構成要素として使用されます。
- ユーザー フィードバックは、検証されると、最も詳細な部分 (ワークフローのシンボリック部分で処理できます) を変更することなく、モデルを再トレーニングするために使用できます。
原題: Insurance Policies: Document Clustering Through Hybrid NLP 、著者: Stefano Reitano
以上が自然言語処理を使用して保険書類をクラスタリングするための戦略と方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

在自然语言生成任务中,采样方法是从生成模型中获得文本输出的一种技术。这篇文章将讨论5种常用方法,并使用PyTorch进行实现。1、GreedyDecoding在贪婪解码中,生成模型根据输入序列逐个时间步地预测输出序列的单词。在每个时间步,模型会计算每个单词的条件概率分布,然后选择具有最高条件概率的单词作为当前时间步的输出。这个单词成为下一个时间步的输入,生成过程会持续直到满足某种终止条件,比如生成了指定长度的序列或者生成了特殊的结束标记。GreedyDecoding的特点是每次选择当前条件概率最

机器学习是一个不断发展的学科,一直在创造新的想法和技术。本文罗列了2023年机器学习的十大概念和技术。 本文罗列了2023年机器学习的十大概念和技术。2023年机器学习的十大概念和技术是一个教计算机从数据中学习的过程,无需明确的编程。机器学习是一个不断发展的学科,一直在创造新的想法和技术。为了保持领先,数据科学家应该关注其中一些网站,以跟上最新的发展。这将有助于了解机器学习中的技术如何在实践中使用,并为自己的业务或工作领域中的可能应用提供想法。2023年机器学习的十大概念和技术:1. 深度神经网

译者 | 朱先忠审校 | 孙淑娟在我之前的博客中,我们已经了解了如何使用因果树来评估政策的异质处理效应。如果你还没有阅读过,我建议你在阅读本文前先读一遍,因为我们在本文中认为你已经了解了此文中的部分与本文相关的内容。为什么是异质处理效应(HTE:heterogenous treatment effects)呢?首先,对异质处理效应的估计允许我们根据它们的预期结果(疾病、公司收入、客户满意度等)选择提供处理(药物、广告、产品等)的用户(患者、用户、客户等)。换句话说,估计HTE有助于我

本文讨论使用LazyPredict来创建简单的ML模型。LazyPredict创建机器学习模型的特点是不需要大量的代码,同时在不修改参数的情况下进行多模型拟合,从而在众多模型中选出性能最佳的一个。 摘要本文讨论使用LazyPredict来创建简单的ML模型。LazyPredict创建机器学习模型的特点是不需要大量的代码,同时在不修改参数的情况下进行多模型拟合,从而在众多模型中选出性能最佳的一个。本文包括的内容如下:简介LazyPredict模块的安装在分类模型中实施LazyPredict

译者 | 朱先忠审校 | 孙淑娟引言模型超参数(或模型设置)的优化可能是训练机器学习算法中最重要的一步,因为它可以找到最小化模型损失函数的最佳参数。这一步对于构建不易过拟合的泛化模型也是必不可少的。优化模型超参数的最著名技术是穷举网格搜索和随机网格搜索。在第一种方法中,搜索空间被定义为跨越每个模型超参数的域的网格。通过在网格的每个点上训练模型来获得最优超参数。尽管网格搜索非常容易实现,但它在计算上变得昂贵,尤其是当要优化的变量数量很大时。另一方面,随机网格搜索是一种更快的优化方法,可以提供更好的

自然语言生成是一种人工智能技术,它能够将数据转换为自然语言文本。在当今的大数据时代,越来越多的业务需要将数据可视化或呈现给用户,而自然语言生成正是一种非常有效的方法。PHP是一种非常流行的服务器端脚本语言,它可以用于开发Web应用程序。本文将简要介绍如何使用PHP进行基本的自然语言生成。引入自然语言生成库PHP自带的函数库并不包括自然语言生成所需的功能,因此

实现自我完善的过程是“机器学习”。机器学习是人工智能核心,是使计算机具有智能的根本途径;它使计算机能模拟人的学习行为,自动地通过学习来获取知识和技能,不断改善性能,实现自我完善。机器学习主要研究三方面问题:1、学习机理,人类获取知识、技能和抽象概念的天赋能力;2、学习方法,对生物学习机理进行简化的基础上,用计算的方法进行再现;3、学习系统,能够在一定程度上实现机器学习的系统。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ホットトピック



