搜索
首页科技周边人工智能应用自然语言处理进行保险文档聚类的策略与方法

译者 | 李睿

审校 | 孙淑娟

保险行业的自然语言处理(NLP)可以从混合机器学习/符号方法中受益,以提高可扩展性,同时利用高级符号推理。  

保险政策:通过混合自然语言处理进行文档聚类

保险文件和保单:复杂的用例  

众所周知,高达87%的数据科学项目未能从概念验证到生产;保险领域的自然语言处理(NLP)项目也不例外。他们必须克服不可避免地与这个空间及其错综复杂相关的一些困难。  

最主要的困难来自:  

  • 保险相关文件的复杂布局。
  • 缺乏带有相关注释的大量语料库。

布局的复杂性是如此之大,以至于相同的语言概念可以根据其在文档中的存放位置而极大地改变其含义和价值。  

以下看一个简单的例子:如果尝试构建一个引擎来识别政策中是否存在“恐怖主义”覆盖范围,将不得不分配一个不同的值,无论它被放置在:  

(1)申报页面的分限额部分。  

(2)政策的“排除”章节。  

(3)增加一个或多个保险的背书。  

(4)为该承保范围添加特定内容的背书。  

缺乏高质量、大小合适的带注释的保险文件语料库,这与注释此类复杂文件的固有难度以及注释数万份保单所需的工作量直接相关。  

而这只是冰山一角。除此之外,还必须考虑保险概念正常化的必要性。  

语言规范化:保险语言中一种无形但强大的力量  

在处理数据库时,概念的规范化是一个很好理解的过程。因为它是应用推理和提高注释过程速度的关键,它对于保险领域的NLP也是至关重要的。  

规范化概念意味着在相同的标签语言元素下分组,这可能看起来非常不同。虽然有很多例子,但最重要的例子来自针对自然灾害的保险单。  

在这种情况下,不同的子限制将应用于不同的洪水区。洪水风险最高的地区通常被称为“高风险洪水区”。这个概念可以表示为:  

(1)一级洪水区  

(2)洪水风险区(SFHA)

(3)洪水区A  

等等

实际上,任何保险承保范围都可以有许多术语,这些术语可以组合在一起,根据特定的地理区域及其固有风险,最重要的自然灾害承保范围甚至有两层或三层的区别(I、II和III)。

将其乘以能找到的所有可能的元素,变体的数量很快就会变得非常大。这导致机器学习注释器和自然语言处理(NLP)引擎在尝试检索、推断甚至标记正确信息时都陷入困境。  

新型的语言聚类:混合方法  

解决复杂自然语言处理(NLP)任务的更好方法是基于混合(机器学习/符号)技术,该技术通过基于机器学习的微语言聚类改进保险工作流程的结果和生命周期,然后由符号引擎继承。  

虽然在无监督学习方法中使用传统的文本聚类来推断语义模式,并将具有相似主题的文档、具有相似含义的句子等组合在一起,但混合方法有很大的不同。使用预定义的规范化值,通过在标记数据上训练的机器学习算法在粒度级别上创建微语言聚类。一旦推断出微语言聚类,它就可以用于进一步的机器学习活动或用于基于符号层驱动推理逻辑的混合管道。  

这符合传统的编程黄金法则:“分解问题”。解决复杂用例(就像保险领域中的大多数用例一样)的第一步是将其分解成更小、更容易接受的块。  

混合语言聚类可以完成哪些任务,可扩展性如何?

符号引擎通常被标记为极其精确但不可扩展,因为在处理训练阶段未见的情况时,它们不具备机器学习的灵活性。  

然而,这种类型的语言聚类通过利用机器学习来识别概念,从而解决这个问题,这些概念随后被传递到管道中接下来的符号引擎的复杂和精确逻辑。  

可能性是无穷无尽的:例如,符号步骤可以根据概念所属的文档段改变机器学习识别的内在价值。  

下面是一个使用“分段”(将文本分割成相关区域)的符号过程来了解如何使用机器学习模块传递的标签的示例。  

想象一下,模型需要理解是否某些保险范围被排除在100页保单之外。

机器学习引擎将首先将“艺术”(Arts)覆盖范围的所有可能变体聚集在一起:  

  • “精美艺术”(Fine Arts)
  • “艺术作品”(Work of Arts)
  • “艺术品”(Artistic Items)
  • “珠宝”(Jewelry)
  • 等等。

紧接着,管道的符号部分将检查“排除”部分是否提到了“艺术”(Arts)标签,从而了解该保险是否被排除在保单之外,或者是否被覆盖(作为次级限额清单的一部分)。

由于这一点,机器学习注释者不必担心根据“艺术”(Arts)变体在策略中的位置为所有“美术”变体指定不同的标签:他们只需要为其变体注释“艺术”(Arts)的规范化值,这将作为一个微语言集群。

复杂任务的另一个有用示例是数据聚合。如果混合引擎旨在提取特定覆盖范围的子限制,以及覆盖规范化问题,则需要处理额外的复杂层:用于聚合的语言项目的顺序。  

考虑一下,手头的任务不仅是提取特定覆盖范围的子限制,而且还提取其限定符(每次事件、聚合等)。这三个项目可以按几个不同的顺序排列:  

  • Fine Arts $100,000 Per Item
  • Fine Arts Per Item $100,000
  • Per Item $100,000 Fine Arts
  • $100,000 Fine Arts
  • Fine Arts $100,000

在聚合数据的同时利用所有这些排列可以显著增加机器学习模型的复杂性。另一方面,混合方法将让机器学习模型识别归一化标签,然后让符号推理根据来自机器学习部分的输入数据识别正确的顺序。  

这只是两个例子,表明可以在可扩展的机器学习算法之上应用无限数量的复杂符号逻辑和推理,以识别规范化的概念。

更易于构建和维护的可扩展的工作流程  

除了可扩展性之外,符号推理还为整个项目工作流程带来了其他好处:  

  • 无需为复杂任务实施不同的机器学习工作流,需要实施和维护不同的标签。此外,重新训练单个机器学习模型比重新训练多个模型更快,并且资源消耗更少。
  • 由于业务逻辑的复杂部分是以符号方式处理的,因此对数据注释者来说,将人工注释添加到机器学习管道要容易得多。
  • 由于上述相同的原因,测试人员也更容易直接为机器学习标准化过程提供反馈。此外,由于工作流的机器学习部分对语言元素进行了规范化,用户将有一个较小的标签列表来标记文档。
  • 符号规则不需要经常更新:经常更新的是机器学习部分,它也可以从用户的反馈中受益。

结语  

  • 保险领域复杂项目中的机器学习可能会受到影响,因为推理逻辑很难压缩为简单的标签;这也使注释者的生活更加困难。
  • 文本位置和推论可以极大地改变具有相同语言形式的概念的实际含义。
  • 在纯粹的机器学习工作流程中,逻辑越复杂,通常需要越多的训练文档来实现生产级准确度  。
  • 出于这个原因,机器学习需要数千(甚至数万)个预先标记的文档来构建有效的模型。
  • 采用混合方法可以降低复杂性:机器学习和用户的注释创建语言集群/标签,然后这些将用作符号引擎实现其目标的起点或构建块。
  • 用户的反馈一旦得到验证,就可用于重新训练模型,而无需更改最精细的部分(可由工作流的符号部分进行处理)。

原文标题:Insurance Policies: Document Clustering Through Hybrid NLP,作者:Stefano Reitano

以上是应用自然语言处理进行保险文档聚类的策略与方法的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
AI内部部署的隐藏危险:治理差距和灾难性风险AI内部部署的隐藏危险:治理差距和灾难性风险Apr 28, 2025 am 11:12 AM

Apollo Research的一份新报告显示,先进的AI系统的不受检查的内部部署构成了重大风险。 在大型人工智能公司中缺乏监督,普遍存在,允许潜在的灾难性结果

构建AI测谎仪构建AI测谎仪Apr 28, 2025 am 11:11 AM

传统测谎仪已经过时了。依靠腕带连接的指针,打印出受试者生命体征和身体反应的测谎仪,在识破谎言方面并不精确。这就是为什么测谎结果通常不被法庭采纳的原因,尽管它曾导致许多无辜者入狱。 相比之下,人工智能是一个强大的数据引擎,其工作原理是全方位观察。这意味着科学家可以通过多种途径将人工智能应用于寻求真相的应用中。 一种方法是像测谎仪一样分析被审问者的生命体征反应,但采用更详细、更精确的比较分析。 另一种方法是利用语言标记来分析人们实际所说的话,并运用逻辑和推理。 俗话说,一个谎言会滋生另一个谎言,最终

AI是否已清除航空航天行业的起飞?AI是否已清除航空航天行业的起飞?Apr 28, 2025 am 11:10 AM

航空航天业是创新的先驱,它利用AI应对其最复杂的挑战。 现代航空的越来越复杂性需要AI的自动化和实时智能功能,以提高安全性,降低操作

观看北京的春季机器人比赛观看北京的春季机器人比赛Apr 28, 2025 am 11:09 AM

机器人技术的飞速发展为我们带来了一个引人入胜的案例研究。 来自Noetix的N2机器人重达40多磅,身高3英尺,据说可以后空翻。Unitree公司推出的G1机器人重量约为N2的两倍,身高约4英尺。比赛中还有许多体型更小的类人机器人参赛,甚至还有一款由风扇驱动前进的机器人。 数据解读 这场半程马拉松吸引了超过12,000名观众,但只有21台类人机器人参赛。尽管政府指出参赛机器人赛前进行了“强化训练”,但并非所有机器人均完成了全程比赛。 冠军——由北京类人机器人创新中心研发的Tiangong Ult

镜子陷阱:人工智能伦理和人类想象力的崩溃镜子陷阱:人工智能伦理和人类想象力的崩溃Apr 28, 2025 am 11:08 AM

人工智能以目前的形式并不是真正智能的。它擅长模仿和完善现有数据。 我们不是在创造人工智能,而是人工推断 - 处理信息的机器,而人类则

新的Google泄漏揭示了方便的Google照片功能更新新的Google泄漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份报告发现,在谷歌相册Android版7.26版本的代码中隐藏了一个更新的界面,每次查看照片时,都会在屏幕底部显示一行新检测到的面孔缩略图。 新的面部缩略图缺少姓名标签,所以我怀疑您需要单独点击它们才能查看有关每个检测到的人员的更多信息。就目前而言,此功能除了谷歌相册已在您的图像中找到这些人之外,不提供任何其他信息。 此功能尚未上线,因此我们不知道谷歌将如何准确地使用它。谷歌可以使用缩略图来加快查找所选人员的更多照片的速度,或者可能用于其他目的,例如选择要编辑的个人。我们拭目以待。 就目前而言

加固芬特的指南 - 分析Vidhya加固芬特的指南 - 分析VidhyaApr 28, 2025 am 09:30 AM

增强者通过教授模型根据人类反馈进行调整来震撼AI的开发。它将监督的学习基金会与基于奖励的更新融合在一起,使其更安全,更准确,真正地帮助

让我们跳舞:结构化运动以微调我们的人类神经网让我们跳舞:结构化运动以微调我们的人类神经网Apr 27, 2025 am 11:09 AM

科学家已经广泛研究了人类和更简单的神经网络(如秀丽隐杆线虫中的神经网络),以了解其功能。 但是,出现了一个关键问题:我们如何使自己的神经网络与新颖的AI一起有效地工作

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中