>웹3.0 >법률 문서와 관련된 클라이언트 식별

법률 문서와 관련된 클라이언트 식별

Linda Hamilton
Linda Hamilton원래의
2024-11-19 10:22:17313검색

주요 목표는 다음 식별자 중 하나를 통해 각 문서와 연결된 클라이언트를 식별하는 것이었습니다.

법률 문서와 관련된 클라이언트 식별

목표는 NER(Named Entity Recognition)를 사용하여 법률 문서에서 고객 이름을 추출하는 것이었습니다. 제가 이 작업에 접근한 방법은 다음과 같습니다.

데이터: PDF 형식의 법률 문서 모음이 있었습니다. 임무는 다음 식별자 중 하나를 사용하여 각 문서에 언급된 고객을 식별하는 것이었습니다.

대략적인 고객 이름(예: "John Doe")

정확한 고객 이름(예: "Doe, John A.")

대략적인 회사 이름(예: "Doe Law Firm")

정확한 회사 이름(예: "Doe, John A. Law Firm")

문서의 약 5%에는 식별 가능한 주체가 포함되어 있지 않습니다.

데이터 세트: 모델 개발을 위해 710개의 "진정한" PDF 문서를 사용했는데, 이 문서는 훈련용 600개, 검증용 55개, 테스트용 55개의 세 세트로 나뉩니다.

레이블: 일반 텍스트로 추출된 항목이 포함된 Excel 파일을 받았는데, 문서 텍스트에 수동으로 레이블을 지정해야 했습니다. BIO 태깅 형식을 사용하여 다음 단계를 수행했습니다.

엔티티의 시작을 "B-"로 표시합니다.

동일한 엔터티 내의 후속 토큰에 "I-"을 계속 표시합니다.

토큰이 어떤 엔터티에도 속하지 않는 경우 "O"로 표시하세요.

대체 접근 방식: 입력 토큰에 대한 경계 상자도 고려하는 LayoutLM과 같은 모델은 잠재적으로 NER 작업의 성능을 향상시킬 수 있습니다. 그러나 나는 종종 그렇듯이 이미 대부분의 프로젝트 시간을 데이터 준비(예: Excel 파일 형식 변경, 데이터 오류 수정, 라벨 지정)에 소비했기 때문에 이 접근 방식을 사용하지 않기로 결정했습니다. 경계 상자 기반 모델을 통합하려면 더 많은 시간을 할당해야 했을 것입니다.

정규식과 휴리스틱을 이론적으로 적용하여 이러한 간단한 엔터티를 식별할 수 있지만, 다른 잠재적 후보 중에서 올바른 엔터티(예: 변호사 이름, 사례)를 정확하게 식별하려면 지나치게 복잡한 규칙이 필요하기 때문에 이 접근 방식은 비실용적일 것이라고 예상했습니다. 번호, 절차의 다른 참가자). 대조적으로, 모델은 관련 엔터티를 구별하는 방법을 학습할 수 있으므로 휴리스틱 사용이 불필요해집니다.

위 내용은 법률 문서와 관련된 클라이언트 식별의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.