検索
ホームページウェブ3.0法的文書に関連付けられた顧客の特定
法的文書に関連付けられた顧客の特定Nov 19, 2024 am 10:22 AM
ner Czech Documents XLM-RoBERTa Accelerate

主な目的は、次の識別子のいずれかを使用して各ドキュメントに関連付けられたクライアントを識別することでした:

法的文書に関連付けられた顧客の特定

目標は、固有表現認識 (NER) を使用して法的文書からクライアント名を抽出することでした。私がこのタスクにどのように取り組んだかは次のとおりです:

データ: 私は PDF 形式の法的文書のコレクションを持っていました。タスクは、次のいずれかの識別子を使用して、各文書で言及されているクライアントを識別することでした:

おおよそのクライアント名 (例: "John Doe")

正確なクライアント名 (例: "Doe, John A.")

おおよその事務所名 (例: "Doe Law Firm")

正確な事務所名 (例: "Doe, John A. Law Firm")

文書の約 5% には、特定の実体が含まれていませんでした。

データセット: モデルの開発には、710 個の「本物の」PDF ドキュメントを使用し、トレーニング用に 600 個、検証用に 55 個、テスト用に 55 個の 3 つのセットに分割しました。

ラベル: プレーン テキストとして抽出されたエンティティを含む Excel ファイルが渡されましたが、文書テキスト内で手動でラベルを付ける必要がありました。 BIO タグ付け形式を使用して、次の手順を実行しました:

エンティティの始まりを「B-」でマークします。

同じエンティティ内の後続のトークンに「I-」のマークを付け続けます。

トークンがどのエンティティにも属していない場合は、「O」とマークします。

代替アプローチ: 入力トークンの境界ボックスも考慮する LayoutLM のようなモデルは、NER タスクのパフォーマンスを向上させる可能性があります。ただし、よくあることですが、すでにプロジェクト時間の大部分をデータの準備 (Excel ファイルの再フォーマット、データ エラーの修正、ラベル付けなど) に費やしていたので、私はこのアプローチを使用しないことにしました。バウンディング ボックス ベースのモデルを統合するには、さらに多くの時間を割り当てる必要がありました。

理論的には、正規表現とヒューリスティックをこれらの単純なエンティティの識別に適用できますが、他の潜在的な候補の中から正しいエンティティ (弁護士名、事件など) を正確に識別するには過度に複雑なルールが必要となるため、このアプローチは非現実的であると予想していました。番号、議事の他の参加者)。対照的に、モデルは関連するエンティティを区別する方法を学習できるため、ヒューリスティックの使用が不要になります。

以上が法的文書に関連付けられた顧客の特定の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Qubetics($ TICS):AI Cryptoの革命Qubetics($ TICS):AI Cryptoの革命Mar 23, 2025 am 10:08 AM

暗号通貨は常に、テクノロジーの最先端が大胆な野心を満たす領域であり、将来的にはよりエキサイティングになっています。人工知能が影響を受け続けているため、少数のデジタル資産があります。

ビットコインの歴史的価格表2015-2025過去10年間のビットコイン価格動向チャートビットコインの歴史的価格表2015-2025過去10年間のビットコイン価格動向チャートMar 12, 2025 pm 06:54 PM

この記事では、2015年から2025年までのビットコインの10年間の価格動向が、ビットコインの価格が劇的に変動し、200ドルから100,000ドルを超えることを示しています。この期間中、ビットコインの価格は、ブロックの報酬の半分、市場の感情、規制政策、グローバルなマクロ経済状況など、さまざまな要因の影響を受けました。この記事では、ビットコインの価格の上昇を年々分析し、主要な年の価格の変化の解釈に焦点を当てており、投資家がビットコインの価格の歴史を理解し、将来の傾向を予測するためのリファレンスを提供します。 キーワード:ビットコイン価格、ビットコイントレンド、ビットコイン10年、デジタル通貨、暗号通貨

ビットコイン[BTC]は、2月の最終週に92,000ドルのサポートレベルを失った後、下降トレンドにいましたビットコイン[BTC]は、2月の最終週に92,000ドルのサポートレベルを失った後、下降トレンドにいましたMar 16, 2025 am 10:10 AM

OBVなどの技術的指標は、販売圧力が支配的であることを示しており、より多くの損失が先にある可能性が高いことを示しています。

トップ10無料仮想通貨交換最新のトップ10仮想通貨アプリトレーディングプラットフォームのランキングトップ10無料仮想通貨交換最新のトップ10仮想通貨アプリトレーディングプラットフォームのランキングMar 11, 2025 am 10:18 AM

トップの仮想通貨交換はランク付けされています。これらのプラットフォームにはそれぞれ独自の利点があります。

Ethereum Historical Price Trend Chart 2015-2024 Ethereum K-Lineチャート10年傾向Ethereum Historical Price Trend Chart 2015-2024 Ethereum K-Lineチャート10年傾向Mar 12, 2025 pm 06:57 PM

この記事では、2015年の最初の0.31ドルから2017年の急増から1,400ドル近くまで急増し、2018年と2022年に市場が急落し、2021年には2023年のリバウンドと安定性の記録的な高値に急増したイーサリアムの価格動向をレビューしました。この記事データは、毎年イーサリアム価格の大幅な変化をカバーし、2024 - 2025年の価格動向を予測し、投資家に包括的な歴史的参照とイーサリアム価格の将来の見通しを提供します。 イーサリアム価格の変動の歴史を理解し、投資機会をつかみます!

サイバー犯罪者は、15億米ドル相当の暗号通貨を盗むことができましたサイバー犯罪者は、15億米ドル相当の暗号通貨を盗むことができましたMar 16, 2025 am 11:12 AM

それ以来、プロバイダーは、これがどのように起こったか、そしてそれが将来どのように(できれば)再び起こらないかを調査してきました。

トップ10デジタル通貨アプリプラットフォームランキング2025年の最新のランキング仮想通貨交換トップ10デジタル通貨アプリプラットフォームランキング2025年の最新のランキング仮想通貨交換Mar 13, 2025 pm 06:45 PM

トップ10のデジタル通貨アプリプラットフォーム:1。OKX、2。GATE.IO、4。KRAKEN、6。HUOBI、7。Crypto.com、9。Bitfinex、10。考慮されます。

BTFDコイン:記録を破っている先行販売BTFDコイン:記録を破っている先行販売Mar 14, 2025 pm 03:15 PM

どのミームコインがあなたの小さな投資を人生を変える利益に変えることができるのか疑問に思ったことはありませんか? 2025年にMeme Coin Marketが激化するにつれて、投資家は新鮮な機会に飛び込み、価格が急上昇する前に次の大きな波をキャッチすることを望んでいます。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。