법률 문서와 관련된 클라이언트 식별-웹3.0-php.cn

집

웹3.0

법률 문서와 관련된 클라이언트 식별

Linda Hamilton

Nov 19, 2024 am 10:22 AM

ner Czech Documents XLM-RoBERTa Accelerate

주요 목표는 다음 식별자 중 하나를 통해 각 문서와 연결된 클라이언트를 식별하는 것이었습니다.

법률 문서와 관련된 클라이언트 식별

목표는 NER(Named Entity Recognition)를 사용하여 법률 문서에서 고객 이름을 추출하는 것이었습니다. 제가 이 작업에 접근한 방법은 다음과 같습니다.

데이터: PDF 형식의 법률 문서 모음이 있었습니다. 임무는 다음 식별자 중 하나를 사용하여 각 문서에 언급된 고객을 식별하는 것이었습니다.

대략적인 고객 이름(예: "John Doe")

정확한 고객 이름(예: "Doe, John A.")

대략적인 회사 이름(예: "Doe Law Firm")

정확한 회사 이름(예: "Doe, John A. Law Firm")

문서의 약 5%에는 식별 가능한 주체가 포함되어 있지 않습니다.

데이터 세트: 모델 개발을 위해 710개의 "진정한" PDF 문서를 사용했는데, 이 문서는 훈련용 600개, 검증용 55개, 테스트용 55개의 세 세트로 나뉩니다.

레이블: 일반 텍스트로 추출된 항목이 포함된 Excel 파일을 받았는데, 문서 텍스트에 수동으로 레이블을 지정해야 했습니다. BIO 태깅 형식을 사용하여 다음 단계를 수행했습니다.

엔티티의 시작을 "B-"로 표시합니다.

동일한 엔터티 내의 후속 토큰에 "I-"을 계속 표시합니다.

토큰이 어떤 엔터티에도 속하지 않는 경우 "O"로 표시하세요.

대체 접근 방식: 입력 토큰에 대한 경계 상자도 고려하는 LayoutLM과 같은 모델은 잠재적으로 NER 작업의 성능을 향상시킬 수 있습니다. 그러나 나는 종종 그렇듯이 이미 대부분의 프로젝트 시간을 데이터 준비(예: Excel 파일 형식 변경, 데이터 오류 수정, 라벨 지정)에 소비했기 때문에 이 접근 방식을 사용하지 않기로 결정했습니다. 경계 상자 기반 모델을 통합하려면 더 많은 시간을 할당해야 했을 것입니다.

정규식과 휴리스틱을 이론적으로 적용하여 이러한 간단한 엔터티를 식별할 수 있지만, 다른 잠재적 후보 중에서 올바른 엔터티(예: 변호사 이름, 사례)를 정확하게 식별하려면 지나치게 복잡한 규칙이 필요하기 때문에 이 접근 방식은 비실용적일 것이라고 예상했습니다. 번호, 절차의 다른 참가자). 대조적으로, 모델은 관련 엔터티를 구별하는 방법을 학습할 수 있으므로 휴리스틱 사용이 불필요해집니다.

위 내용은 법률 문서와 관련된 클라이언트 식별의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

상위 10 개의 가상 통화 거래 플랫폼 순위 10 대상 가상 통화 거래 플랫폼 앱 순위May 15, 2025 pm 06:39 PM

상위 10 개의 가상 통화 거래 플랫폼 순위 : 1. OKX, 2. BINANCE, 3. HUOBI, 4. COINBASE, 5. KRAKEN, 6. BITFINEX, 7. BITTREX, 8. POLONIEX, 9. GEMINI, 10. KUCOIN. 이 플랫폼은 모두 다양한 디지털 자산 거래 서비스, 지원 지점, 선물 및 레버리지 거래를 제공하며 스테이 킹 및 대출 서비스를 제공합니다. 사용자 인터페이스는 간단하며 모바일 애플리케이션 기능은 강력합니다.

상위 10 개 디지털 환전 앱 순위 최신 10 대 디지털 환전 순위 순위May 15, 2025 pm 06:36 PM

상위 10 개의 디지털 환전 앱 순위 : 1. Binance, 2. Okx, 3. Huobi, 4. Coinbase, 5. Kraken, 6. Bittrex, 7. Bitfinex, 8. Kucoin, 9. Gemini, 10. Poloniex는 자체 특성을 가지고 있으며, 이러한 교환은 다양한 거래 옵션과 강력한 보안 측정을 제공합니다.

상위 10 개의 가상 통화 거래 플랫폼의 최신 순위, 상위 10 개 환화 교환 앱의 최신 순위May 15, 2025 pm 06:33 PM

1. Binance, 2. OKX, 3. Huobi, 4. Coinbase, 5. Kraken, 6. Bitfinex, 7. Bybit, 8. Kucoin, 9. FTX, 10. Gemini, 이들 플랫폼은 사용자 경험, 보안 및 거래에 적합하며 다른 수준에 적합합니다.

상위 10 개 환전 앱 상위 10 개 암호 화폐 거래소의 최신 순위May 15, 2025 pm 06:30 PM

상위 10 개 환전 앱 : 1. Binance, 2. Okx, 3. Huobi, 4. Coinbase, 5. Kraken, 6. Bybit, 7. Kucoin, 8. Bitfinex, 9. Bitstamp, Bitstamp,이 플랫폼은 사용자 경험, 보안 및 거래량의 장점으로 높이 평가됩니다.

상위 10 개의 Cryptocurrency Exchanges 앱 순위 앱 순위 순위 상위 10 개의 Cryptocurrency 교환 순위May 15, 2025 pm 06:27 PM

상위 10 개 암호 화폐 교환은 다음과 같습니다. 1. Binance, 2. OKX, 3. Huobi, 4. Coinbase, 5. Kraken, 6. Bittrex, 7. Bitfinex, 8. Kucoin, 9. Bybit, 이러한 거래소, 이러한 거래소, 다양성 거래 제품 및 Strriced Interficates inverficates graties는 높은 거래량으로 높이 평가됩니다.

상위 10 개 가상 화폐 거래 플랫폼 순위 순위 상위 10 개 가상 환전 앱May 15, 2025 pm 06:24 PM

상위 10 개 디지털 환전 앱의 최신 순위는 상위 10 개 디지털 환전 앱의 최신 순위입니다.

상위 10 개 디지털 환전 앱은 다음과 같습니다. 1. Binance, 2. Okx, 3. Huobi, 4. Coinbase, 5. Kraken, 6. Bittrex, 7. Bitfinex, 8. Kucoin, 9. Gemini, 10. Poloniex. 이러한 거래소에는 자체 특성이있어 다양한 사용 수준의 사용자에게 적합한 풍부한 거래 옵션과 강력한 보안 조치를 제공합니다.

최신 10 대 디지털 통화 거래 플랫폼 앱의 상위 10 개 디지털 통화 거래 플랫폼 앱 순위 순위

상위 10 개의 디지털 통화 거래 플랫폼 앱 순위 : 1. Binance, 2. OKX, 3. Huobi, 4. Coinbase, 5. Kraken, 6. Bitfinex, 7. Bybit, 8. Kucoin, 9. FTX, 10. Gemini, 이러한 플랫폼은 사용자 경험, 보안, 거래량 및 지원되는 카레를 지원하며 다른 수준을 운영하는 사람에게 적합합니다.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.