自然言語処理を使用して保険書類をクラスタリングするための戦略と方法-AI-php.cn

ホームページ

テクノロジー周辺機器

自然言語処理を使用して保険書類をクラスタリングするための戦略と方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 22, 2023 am 10:46 AM

機械学習自然言語データサイエンス

翻訳者|Li Rui

査読者|Sun Shujuan

保険業界の自然言語処理 (NLP) は、高度なシンボリックを活用しながら、ハイブリッド機械学習/シンボリックアプローチの恩恵を受けてスケーラビリティを向上できます。推論。

自然言語処理を使用して保険書類をクラスタリングするための戦略と方法

保険文書と保険契約: 複雑な使用例

データサイエンスプロジェクトの最大 87% が概念実証から概念実証への移行に失敗していることはよく知られています。言語処理 (NLP) プロジェクトも例外ではありません。彼らは、この空間とその複雑さに必然的に伴ういくつかの困難を克服しなければなりません。

主な問題点は次のとおりです。

保険関連書類の複雑なレイアウト。
関連する注釈を備えた大規模なコーパスが不足しています。

レイアウトの複雑さは非常に大きいため、同じ言語概念であっても、文書内のどこに配置されるかによって、その意味や価値が大幅に変わる可能性があります。

簡単な例を見てみましょう: 保険に「テロ」補償が存在するかどうかを識別するエンジンを構築しようとすると、それがどこに配置されているかに関係なく、別の値を割り当てる必要があります:

(1) 宣言ページの一部をサブリミットします。

(2) ポリシーの「除外」セクション。

(3) 1 つ以上の保険裏書きを追加します。

(4) 報道内容に具体的な推奨を追加します。

高品質で適切なサイズの注釈付き保険文書コーパスが不足していることは、このような複雑な文書に注釈を付ける固有の難しさと、数万件の保険契約に注釈を付けるのに必要な労力に直接関係しています。

そして、これは氷山の一角にすぎません。これに加えて、保険の概念を正常化する必要性も考慮する必要があります。

言語の標準化: 保険用語における目には見えない強力な力

データベースを扱う場合、概念の標準化はよく理解されているプロセスです。これは推論を適用し、アノテーションプロセスの速度を上げるための鍵であるため、保険分野における NLP にとっても重要です。

正規化の概念は、要素を同じタグ言語の下にグループ化することを意味しますが、見た目は大きく異なる場合があります。多くの例がありますが、最も重要なものは自然災害をカバーする保険契約です。

この場合、異なる浸水ゾーンには異なるサブリミットが適用されます。洪水の危険性が最も高い地域は、「高リスク洪水地帯」と呼ばれることがあります。この概念は次のように表現できます。

(1) レベル 1 洪水エリア

(2) 洪水リスクエリア (SFHA)

(3) 洪水エリア A

etc

実際には、どの保険にも、グループ化できる多くの条件が含まれています。特定の地理的エリアとその固有のリスクに応じて、最も重要な自然災害補償には 2 つの段階または階層間の違いがあります。層 (I、II、III)。

これに、見つかる可能性のあるすべての要素を乗算すると、バリエーションの数がすぐに非常に大きくなる可能性があります。これにより、機械学習アノテーターと自然言語処理 (NLP) エンジンの両方が、正しい情報を取得、推論、さらにはラベル付けしようとすると行き詰まってしまいます。

新しい言語クラスタリング: ハイブリッドアプローチ

複雑な自然言語処理 (NLP) タスクを解決するより良い方法は、機械学習ベースのクラスタリングを使用するハイブリッド (機械学習/記号) 手法に基づいています。マイクロ言語の導入により、保険ワークフローの結果とライフサイクルが改善され、それがシンボリックエンジンに継承されます。

従来のテキストクラスタリングは、意味パターンを推測し、同様のトピックや同様の意味を持つ文などを含む文書をグループ化する教師なし学習方法で使用されますが、ハイブリッド方法は大きく異なります。微言語クラスターは、事前定義された正規化値を使用してラベル付きデータでトレーニングされた機械学習アルゴリズムを使用して、粒度レベルで作成されます。マイクロ言語クラスターが推論されると、それをさらなる機械学習アクティビティで使用したり、シンボリックレイヤーに基づいたハイブリッドパイプライン駆動の推論ロジックで使用したりできます。

これは、「問題を分解する」というプログラミングの伝統的な黄金律に沿ったものです。複雑なユースケース (保険業界のほとんどのユースケースと同様) を解決するための最初のステップは、それをより小さく、より使いやすい部分に分割することです。

混合言語クラスタリングはどのようなタスクを実行できますか?また、そのスケーラビリティはどのようなものですか?

シンボリックエンジンは、非常に正確であるものの、トレーニング中に見られなかった状況に対処する際の機械学習の柔軟性がないため、スケーラビリティが低いと言われることがよくあります。

ただし、このタイプの言語クラスタリングでは、機械学習を活用して概念を特定し、パイプラインの次のシンボリックエンジンの複雑で正確なロジックに渡すことで、この問題を解決します。

可能性は無限です。たとえば、記号ステップは、概念が属する文書セグメントに基づいて機械学習認識の本質的な価値を変更できます。

ここでは、「セグメンテーション」(テキストを関連する領域に分割する) の表記プロセスを使用して、機械学習モジュールによって渡されたラベルを使用する方法を示す例を示します。

モデルが、100 ページの保険契約から特定の補償範囲が除外されているかどうかを理解する必要があると想像してください。

機械学習エンジンはまず、「芸術」の対象範囲の考えられるすべてのバリエーションをクラスター化します:

「美術」
「芸術作品」
「アートアイテム」
「ジュエリー」
など。

これに続いて、パイプラインのシンボル部分は、「除外」セクションに「芸術」タグが記載されているかどうかを確認して、その対象範囲がポリシーから除外されているかどうか、または対象となっているかどうかを確認します。 (サブリミットリストの一部として)。

これのおかげで、機械学習のアノテーターは、ポリシー内での位置に基づいてすべてのアーツバリアントに異なるラベルを割り当てることを心配する必要はありません。バリアントの「アーツ」の正規化された値にアノテーションを付けるだけで済みます。マイクロ言語クラスターとして機能します。

複雑なタスクのもう 1 つの有用な例は、データの集計です。ハイブリッドエンジンが特定のカバレッジのサブ制限やカバレッジの正規化の問題を抽出するように設計されている場合、処理する複雑な層がさらに 1 つあります。それは、集計に使用される言語項目の順序です。

現在のタスクは、特定のカバレッジのサブリミットだけでなく、その修飾子 (イベントごと、集計など) も抽出することであると考えてください。 3 つのアイテムは、いくつかの異なる順序で並べることができます。

アイテムあたり $100,000 の美術品
アイテムあたり $100,000
アイテムあたり $100,000 の美術品
$100,000 Fine Arts
Fine Arts $100,000

データを集約する際にこれらの順列をすべて利用すると、機械学習モデルの複雑さが大幅に増加する可能性があります。一方、ハイブリッドアプローチでは、機械学習モデルで正規化されたラベルを識別し、機械学習部分からの入力データに基づいて記号推論で正しい順序を識別します。

これらは、標準的な概念を識別するために、スケーラブルな機械学習アルゴリズムに無制限の量の複雑な記号ロジックと推論を適用できることを示す 2 つの例にすぎません。

構築と保守が容易なスケーラブルなワークフロー

スケーラビリティに加えて、シンボリック推論はプロジェクトワークフロー全体に次のような利点をもたらします。

さまざまな実装を行う代わりに、複雑なタスクの機械学習ワークフローでは、さまざまなタグを実装して維持する必要があります。さらに、単一の機械学習モデルを再トレーニングする方が、複数のモデルを再トレーニングするよりも高速で、消費するリソースが少なくなります。
ビジネスロジックの複雑な部分は記号的に処理されるため、データアノテーターが機械学習パイプラインにヒューマンアノテーションを追加するのがはるかに簡単になります。
上記と同じ理由により、テスト担当者が機械学習の標準化プロセスに直接フィードバックを提供することも容易になります。さらに、ワークフローの機械学習部分が言語要素を正規化するため、ユーザーがドキュメントにラベルを付けるためのタグのリストが少なくなります。
シンボルルールは頻繁に更新する必要はありません。頻繁に更新されるのは機械学習部分であり、ユーザーのフィードバックからも恩恵を受けます。

結論

保険分野の複雑なプロジェクトにおける機械学習は、推論ロジックを単純なタグに圧縮することが難しいため、苦しむ可能性があります。これにより、アノテーターの作業もより困難になります。。
テキストの位置と推論により、同じ言語形式でも概念の実際の意味が劇的に変わる可能性があります。
純粋な機械学習ワークフローでは、ロジックが複雑になればなるほど、実稼働レベルの精度を達成するためにより多くのトレーニングドキュメントが必要になります。
このため、機械学習では効果的なモデルを構築するために、事前にラベル付けされた数千 (または数万) のドキュメントが必要になります。
ハイブリッドアプローチを採用することで複雑さが軽減されます。機械学習とユーザーアノテーションによって言語クラスター/タグが作成され、これらはシンボリックエンジンが目標を達成するための開始点または構成要素として使用されます。
ユーザーフィードバックは、検証されると、最も詳細な部分 (ワークフローのシンボリック部分で処理できます) を変更することなく、モデルを再トレーニングするために使用できます。

原題: Insurance Policies: Document Clustering Through Hybrid NLP 、著者: Stefano Reitano

以上が自然言語処理を使用して保険書類をクラスタリングするための戦略と方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。