搜尋
首頁科技週邊人工智慧應用自然語言處理進行保險文檔聚類的策略與方法

譯者| 李睿

審校| 孫淑娟

保險業的自然語言處理(NLP)可以從混合機器學習/符號方法中受益,以提高可擴展性,同時利用高階符號推理。

應用自然語言處理進行保險文檔聚類的策略與方法

保險文件與保單:複雜的用例 

#眾所周知,高達87%的資料科學專案未能從概念驗證到生產;保險領域的自然語言處理(NLP)項目也不例外。他們必須克服不可避免地與這個空間及其錯綜複雜相關的一些困難。 

最主要的困難來自:  

  • 保險相關文件的複雜版面。
  • 缺乏大量帶有相關註解的語料庫。

佈局的複雜性是如此之大,以至於相同的語言概念可以根據其在文件中的存放位置而極大地改變其含義和價值。

以下看一個簡單的例子:如果嘗試建立一個引擎來識別政策中是否存在「恐怖主義」覆蓋範圍,將不得不分配一個不同的值,無論它被放置在:  

(1)申報頁面的分限額部分。 

(2)政策的「排除」章節。 

(3)增加一個或多個保險的背書。 

(4)為此承保範圍新增特定內容的背書。 

缺乏高品質、大小合適的帶註釋的保險文件語料庫,這與註釋此類複雜文件的固有難度以及註釋數萬份保單所需的工作量直接相關。 

而這只是冰山一角。除此之外,還必須考慮保險概念正常化的必要性。 

語言標準化:保險語言中一種無形但強大的力量  

#在處理資料庫時,概念的標準化是一個很好理解的過程。因為它是應用推理和提高註釋過程速度的關鍵,它對於保險領域的NLP也是至關重要的。 

規範化概念意味著在相同的標籤語言元素下分組,這可能看起來非常不同。雖然有許多例子,但最重要的例子來自針對自然災害的保險單。 

在這種情況下,不同的子限制將應用於不同的洪水區。洪水風險最高的地區通常被稱為「高風險洪水區」。這個概念可以表示為:  

(1)一級洪水區 

(2)洪水風險區(SFHA)

(3)洪水區A  

##等等

實際上,任何保險承保範圍都可以有許多術語,這些術語可以組合在一起,根據特定的地理區域及其固有風險,最重要的自然災害承保範圍甚至有兩層或三層的區別(I、II和III)。

將其乘以能找到的所有可能的元素,變體的數量很快就會變得非常大。這導致機器學習註釋器和自然語言處理(NLP)引擎在嘗試檢索、推斷甚至標記正確資訊時都陷入困境。

新型的語言聚類:混合方法 

解決複雜自然語言處理(NLP)任務的更好方法是基於混合(機器學習/符號)技術,該技術透過基於機器學習的微語言聚類改善保險工作流程的結果和生命週期,然後由符號引擎繼承。

雖然在無監督學習方法中使用傳統的文本聚類來推斷語義模式,並將具有相似主題的文檔、具有相似含義的句子等組合在一起,但混合方法有很大的不同。使用預先定義的規範化值,透過在標記資料上訓練的機器學習演算法在粒度層級上建立微語言聚類。一旦推斷出微語言聚類,它就可以用於進一步的機器學習活動或用於基於符號層驅動推理邏輯的混合管道。 

這符合傳統的程式設計黃金法則:「分解問題」。解決複雜用例(就像保險領域中的大多數用例一樣)的第一步是將其分解成更小、更容易接受的區塊。 

混合語言聚類可以完成哪些任務,可擴展性如何?

符號引擎通常被標記為極其精確但不可擴展,因為在處理訓練階段未見的情況時,它們不具備機器學習的靈活性。 

然而,這種類型的語言聚類透過利用機器學習來識別概念,從而解決這個問題,這些概念隨後被傳遞到管道中接下來的符號引擎的複雜和精確邏輯。 

可能性是無窮無盡的:例如,符號步驟可以根據概念所屬的文件段改變機器學習辨識的內在價值。 

以下是一個使用「分段」(將文字分割成相關區域)的符號過程來了解如何使用機器學習模組傳遞的標籤的範例。 

想像一下,模型需要理解是否某些保險範圍被排除在100頁保單之外。

機器學習引擎將首先將“藝術”(Arts)覆蓋範圍的所有可能變體聚集在一起:  

  • “精美藝術”(Fine Arts)
  • “藝術作品」(Work of Arts)
  • 「藝術品」(Artistic Items)
  • 「珠寶」(Jewelry)
  • #等等。

緊接著,管道的符號部分將檢查「排除」部分是否提到了「藝術」(Arts)標籤,從而了解該保險是否被排除在保單之外,或者是否被覆蓋(作為次級限額清單的一部分)。

由於這一點,機器學習註釋者不必擔心根據「藝術」(Arts)變體在策略中的位置為所有「美術」變體指定不同的標籤:他們只需要為其變體註釋「藝術」(Arts)的規範化值,這將作為一個微語言集群。

複雜任務的另一個有用範例是資料聚合。如果混合引擎旨在提取特定覆蓋範圍的子限制,以及覆蓋規範化問題,則需要處理額外的複雜層:用於聚合的語言項目的順序。 

考慮一下,手邊的任務不僅是提取特定覆蓋範圍的子限制,還提取其限定符(每次事件、聚合等)。這三個項目可以以幾個不同的順序排列:  

    ##Fine Arts $100,000 Per Item
  • Fine Arts Per Item $100,000
  • Per Item $100,000 Fine Arts
  • $100,000 Fine Arts
  • Fine Arts $100,000
在聚合資料的同時利用所有這些排列可以顯著增加機器學習模型的複雜性。另一方面,混合方法將讓機器學習模型識別歸一化標籤,然後讓符號推理根據來自機器學習部分的輸入資料識別正確的順序。 

這只是兩個例子,表明可以在可擴展的機器學習演算法之上應用無限數量的複雜符號邏輯和推理,以識別規範化的概念。

更容易建構和維護的可擴展的工作流程 

除了可擴展性之外,符號推理還為整個專案工作流程帶來了其他好處:  

    無需為複雜任務實施不同的機器學習工作流程,需要實施和維護不同的標籤。此外,重新訓練單一機器學習模型比重新訓練多個模型更快,且資源消耗更少。
  • 由於業務邏輯的複雜部分是以符號方式處理的,因此對資料註釋者來說,將手動註釋添加到機器學習管道要容易得多。
  • 由於上述相同的原因,測試人員也更容易直接為機器學習標準化過程提供回饋。此外,由於工作流程的機器學習部分對語言元素進行了規範化,使用者將有一個較小的標籤清單來標記文件。
  • 符號規則不需要經常更新:經常更新的是機器學習部分,它也可以從使用者的回饋中受益。
結論 

    保險領域複雜專案中的機器學習可能會受到影響,因為推理邏輯很難壓縮為簡單的標籤;這也使註釋者的生活更加困難。
  • 文本位置和推論可以大幅改變具有相同語言形式的概念的實際意義。
  • 在純粹的機器學習工作流程中,邏輯越複雜,通常需要越多的訓練文件來實現生產級準確度  。
  • 基於這個原因,機器學習需要數千(甚至數萬)個預先標記的文件來建立有效的模型。
  • 採用混合方法可以降低複雜性:機器學習和使用者的註解建立語言叢集/標籤,然後這些將用作符號引擎實現其目標的起點或建構塊。
  • 使用者的回饋一旦驗證,就可用於重新訓練模型,而無需更改最精細的部分(可由工作流程的符號部分進行處理)。

原文標題:#Insurance Policies: Document Clustering Through Hybrid NLP##,作者:Stefano Reitano

以上是應用自然語言處理進行保險文檔聚類的策略與方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

計算ASI的風險始於人類的思想計算ASI的風險始於人類的思想May 14, 2025 am 05:02 AM

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

易於理解的解釋如何編寫和撰寫歌詞和推薦工具易於理解的解釋如何編寫和撰寫歌詞和推薦工具May 14, 2025 am 05:01 AM

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!May 14, 2025 am 05:00 AM

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

解釋如何使用chatgpt應用程序!日本支持和語音對話功能解釋如何使用chatgpt應用程序!日本支持和語音對話功能May 14, 2025 am 04:59 AM

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

如何使用中文版Chatgpt?註冊程序和費用的說明如何使用中文版Chatgpt?註冊程序和費用的說明May 14, 2025 am 04:56 AM

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

5 AI代理神話,您需要停止相信5 AI代理神話,您需要停止相信May 14, 2025 am 04:54 AM

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋May 14, 2025 am 04:50 AM

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具