譯者| 李睿
審校| 孫淑娟
保險業的自然語言處理(NLP)可以從混合機器學習/符號方法中受益,以提高可擴展性,同時利用高階符號推理。
保險文件與保單:複雜的用例
#眾所周知,高達87%的資料科學專案未能從概念驗證到生產;保險領域的自然語言處理(NLP)項目也不例外。他們必須克服不可避免地與這個空間及其錯綜複雜相關的一些困難。
最主要的困難來自:
- 保險相關文件的複雜版面。
- 缺乏大量帶有相關註解的語料庫。
佈局的複雜性是如此之大,以至於相同的語言概念可以根據其在文件中的存放位置而極大地改變其含義和價值。
以下看一個簡單的例子:如果嘗試建立一個引擎來識別政策中是否存在「恐怖主義」覆蓋範圍,將不得不分配一個不同的值,無論它被放置在:
(1)申報頁面的分限額部分。
(2)政策的「排除」章節。
(3)增加一個或多個保險的背書。
(4)為此承保範圍新增特定內容的背書。
缺乏高品質、大小合適的帶註釋的保險文件語料庫,這與註釋此類複雜文件的固有難度以及註釋數萬份保單所需的工作量直接相關。
而這只是冰山一角。除此之外,還必須考慮保險概念正常化的必要性。
語言標準化:保險語言中一種無形但強大的力量
#在處理資料庫時,概念的標準化是一個很好理解的過程。因為它是應用推理和提高註釋過程速度的關鍵,它對於保險領域的NLP也是至關重要的。
規範化概念意味著在相同的標籤語言元素下分組,這可能看起來非常不同。雖然有許多例子,但最重要的例子來自針對自然災害的保險單。
在這種情況下,不同的子限制將應用於不同的洪水區。洪水風險最高的地區通常被稱為「高風險洪水區」。這個概念可以表示為:
(1)一級洪水區
(2)洪水風險區(SFHA)
(3)洪水區A
##等等
實際上,任何保險承保範圍都可以有許多術語,這些術語可以組合在一起,根據特定的地理區域及其固有風險,最重要的自然災害承保範圍甚至有兩層或三層的區別(I、II和III)。
將其乘以能找到的所有可能的元素,變體的數量很快就會變得非常大。這導致機器學習註釋器和自然語言處理(NLP)引擎在嘗試檢索、推斷甚至標記正確資訊時都陷入困境。
新型的語言聚類:混合方法
解決複雜自然語言處理(NLP)任務的更好方法是基於混合(機器學習/符號)技術,該技術透過基於機器學習的微語言聚類改善保險工作流程的結果和生命週期,然後由符號引擎繼承。
雖然在無監督學習方法中使用傳統的文本聚類來推斷語義模式,並將具有相似主題的文檔、具有相似含義的句子等組合在一起,但混合方法有很大的不同。使用預先定義的規範化值,透過在標記資料上訓練的機器學習演算法在粒度層級上建立微語言聚類。一旦推斷出微語言聚類,它就可以用於進一步的機器學習活動或用於基於符號層驅動推理邏輯的混合管道。
這符合傳統的程式設計黃金法則:「分解問題」。解決複雜用例(就像保險領域中的大多數用例一樣)的第一步是將其分解成更小、更容易接受的區塊。
混合語言聚類可以完成哪些任務,可擴展性如何?
符號引擎通常被標記為極其精確但不可擴展,因為在處理訓練階段未見的情況時,它們不具備機器學習的靈活性。
然而,這種類型的語言聚類透過利用機器學習來識別概念,從而解決這個問題,這些概念隨後被傳遞到管道中接下來的符號引擎的複雜和精確邏輯。
可能性是無窮無盡的:例如,符號步驟可以根據概念所屬的文件段改變機器學習辨識的內在價值。
以下是一個使用「分段」(將文字分割成相關區域)的符號過程來了解如何使用機器學習模組傳遞的標籤的範例。
想像一下,模型需要理解是否某些保險範圍被排除在100頁保單之外。
機器學習引擎將首先將“藝術”(Arts)覆蓋範圍的所有可能變體聚集在一起:
- “精美藝術”(Fine Arts)
- “藝術作品」(Work of Arts)
- 「藝術品」(Artistic Items)
- 「珠寶」(Jewelry)
- #等等。
緊接著,管道的符號部分將檢查「排除」部分是否提到了「藝術」(Arts)標籤,從而了解該保險是否被排除在保單之外,或者是否被覆蓋(作為次級限額清單的一部分)。
由於這一點,機器學習註釋者不必擔心根據「藝術」(Arts)變體在策略中的位置為所有「美術」變體指定不同的標籤:他們只需要為其變體註釋「藝術」(Arts)的規範化值,這將作為一個微語言集群。
複雜任務的另一個有用範例是資料聚合。如果混合引擎旨在提取特定覆蓋範圍的子限制,以及覆蓋規範化問題,則需要處理額外的複雜層:用於聚合的語言項目的順序。
考慮一下,手邊的任務不僅是提取特定覆蓋範圍的子限制,還提取其限定符(每次事件、聚合等)。這三個項目可以以幾個不同的順序排列:
- ##Fine Arts $100,000 Per Item
- Fine Arts Per Item $100,000
- Per Item $100,000 Fine Arts
- $100,000 Fine Arts
- Fine Arts $100,000
- 無需為複雜任務實施不同的機器學習工作流程,需要實施和維護不同的標籤。此外,重新訓練單一機器學習模型比重新訓練多個模型更快,且資源消耗更少。
- 由於業務邏輯的複雜部分是以符號方式處理的,因此對資料註釋者來說,將手動註釋添加到機器學習管道要容易得多。
- 由於上述相同的原因,測試人員也更容易直接為機器學習標準化過程提供回饋。此外,由於工作流程的機器學習部分對語言元素進行了規範化,使用者將有一個較小的標籤清單來標記文件。
- 符號規則不需要經常更新:經常更新的是機器學習部分,它也可以從使用者的回饋中受益。
- 保險領域複雜專案中的機器學習可能會受到影響,因為推理邏輯很難壓縮為簡單的標籤;這也使註釋者的生活更加困難。
- 文本位置和推論可以大幅改變具有相同語言形式的概念的實際意義。
- 在純粹的機器學習工作流程中,邏輯越複雜,通常需要越多的訓練文件來實現生產級準確度 。
- 基於這個原因,機器學習需要數千(甚至數萬)個預先標記的文件來建立有效的模型。
- 採用混合方法可以降低複雜性:機器學習和使用者的註解建立語言叢集/標籤,然後這些將用作符號引擎實現其目標的起點或建構塊。
- 使用者的回饋一旦驗證,就可用於重新訓練模型,而無需更改最精細的部分(可由工作流程的符號部分進行處理)。
原文標題:#Insurance Policies: Document Clustering Through Hybrid NLP##,作者:Stefano Reitano
以上是應用自然語言處理進行保險文檔聚類的策略與方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

記事本++7.3.1
好用且免費的程式碼編輯器