主要目标是通过以下标识符之一识别与每个文档关联的客户:
目标是使用命名实体识别 (NER) 从法律文档中提取客户名称。以下是我完成任务的方法:
数据:我收集了 PDF 格式的法律文件。任务是使用以下标识符之一来识别每个文档中提到的客户:
大概的客户名称(例如“John Doe”)
准确的客户名称(例如“Doe, John A.”)
大概的公司名称(例如“Doe Law Firm”)
准确的公司名称(例如“Doe, John A. Law Firm”)
大约 5% 的文档不包含任何识别实体。
数据集:为了开发模型,我使用了 710 个“真实”PDF 文档,这些文档分为三组:600 个用于训练,55 个用于验证,55 个用于测试。
标签:我收到了一个 Excel 文件,其中的实体被提取为纯文本,需要在文档文本中手动标记。使用 BIO 标记格式,我执行了以下步骤:
用“B-
继续用“I-
如果令牌不属于任何实体,则将其标记为“O”。
替代方法:像 LayoutLM 这样的模型也考虑了输入标记的边界框,可能会提高 NER 任务的性能。然而,我选择不使用这种方法,因为通常情况下,我已经花费了项目的大部分时间来准备数据(例如,重新格式化 Excel 文件、更正数据错误、标记)。要集成基于边界框的模型,我需要分配更多时间。
虽然理论上可以应用正则表达式和启发式来识别这些简单的实体,但我预计这种方法是不切实际的,因为它需要过于复杂的规则来精确识别其他潜在候选者中的正确实体(例如,律师姓名、案件)人数、诉讼程序的其他参与者)。相比之下,该模型能够学习区分相关实体,从而使启发式方法的使用变得多余。
以上是识别与法律文件相关的客户的详细内容。更多信息请关注PHP中文网其他相关文章!