Python での LASER 埋め込みを使用したテキスト識別子のセマンティックマッチング-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python での LASER 埋め込みを使用したテキスト識別子のセマンティックマッチング

Linda Hamilton

Nov 25, 2024 am 05:33 AM

Semantic Matching of Text Identifiers Using LASER Embeddings in Python

OCR を使用して財務レポートをデジタル化する場合、レポート内の特定のカテゴリを検出するためにさまざまなアプローチが使用される場合があります。たとえば、レーベンシュタインアルゴリズムなどの従来の方法は、編集距離に基づく文字列の一致に使用でき、タイプミスやテキストの小さな変化の修正など、近似一致の処理に効果的です。

ただし、レポートの 1 行で複数のカテゴリを検出する必要がある場合、特にそれらのカテゴリが期待どおりに表示されない場合や、意味的に重複する可能性がある場合、課題はより複雑になります。

この投稿では、Facebook の LASER (Language-Agnostic SEntence Representations) 埋め込みを使用したセマンティックマッチングアプローチを分析し、このタスクを効果的に処理する方法を紹介します。

問題

目的は、特定のテキスト行内の特定の財務条件 (カテゴリ) を識別することです。次のような、考えられる関心のあるすべての用語を表す事前定義されたカテゴリの固定セットがあると仮定しましょう。

[「収益」、「営業費用」、「営業利益」、「減価償却費」、「利息」、「純利益」、「税金」、「税引後利益」、「指標 1」]

次のような入力行があるとします。

「営業利益、純利益、税引き後利益」

この行にどの識別子が含まれているかを検出することを目的としています。

LASERによるセマンティックマッチング

テキストの完全一致またはあいまい一致に依存する代わりに、意味的な類似性を使用します。このアプローチでは、LASER 埋め込みを利用してテキストの意味論的な意味を取得し、コサイン類似度を使用してそれを比較します。

実装

テキストの前処理

埋め込む前に、テキストは小文字に変換され、余分なスペースが削除される前処理されます。これにより均一性が保証されます。

def preprocess(text):
    return text.lower().strip()

埋め込み識別子と入力行

LASER エンコーダは、識別子のリストと入力/OCR ラインの両方に対して正規化された埋め込みを生成します。

identifier_embeddings = encoder.encode_sentences(identifiers, normalize_embeddings=True)
ocr_line_embedding = encoder.encode_sentences([ocr_line], normalize_embeddings=True)[0]

特異性による識別子のランク付け

長い識別子は、単語数に基づいて並べ替えることにより優先されます。これは、長い識別子が短い識別子を包含する可能性があるネストされた一致を処理するのに役立ちます (例: 「税引後利益」が「利益」を包含します)。

ranked_identifiers = sorted(identifiers, key=lambda x: len(x.split()), reverse=True)
ranked_embeddings = encoder.encode_sentences(ranked_identifiers, normalize_embeddings=True)

類似性の計算

コサイン類似度を使用して、各識別子が入力行に対して意味的にどの程度類似しているかを測定します。指定されたしきい値を超える類似性を持つ識別子は一致とみなされます。

matches = []
threshold = 0.6

for idx, identifier_embedding in enumerate(ranked_embeddings):
    similarity = cosine_similarity([identifier_embedding], [ocr_line_embedding])[0][0]
    if similarity >= threshold:
        matches.append((ranked_identifiers[idx], similarity))

ネストされた一致の解決

重複する識別子を処理するために、長い一致が優先され、その中の短い一致が確実に除外されます。

def preprocess(text):
    return text.lower().strip()

結果

コードが実行されると、検出された一致のリストとその類似性スコアが出力に提供されます。入力例:

identifier_embeddings = encoder.encode_sentences(identifiers, normalize_embeddings=True)
ocr_line_embedding = encoder.encode_sentences([ocr_line], normalize_embeddings=True)[0]

長く複雑な入力に関する考慮事項

この方法は、カテゴリが多すぎたり、無関係なテキストが多すぎたりしない限り、1 行に複数のカテゴリがある構造化財務レポートでうまく機能します。ただし、長く複雑な入力や構造化されていないユーザー作成テキストでは、埋め込みが関連するカテゴリに焦点を当てるのに苦労する可能性があるため、精度が低下する可能性があります。ノイズの多い入力や予測不可能な入力に対しては信頼性が低くなります。

結論

この投稿では、LASER 埋め込みがテキスト内の複数のカテゴリを検出するための便利なツールとなり得ることを示します。それは最良の選択肢ですか?おそらくそうではないかもしれませんが、特に従来のマッチング手法では不十分な可能性がある複雑なシナリオを扱う場合には、検討する価値のあるオプションの 1 つであることは確かです。

完全なコード

ranked_identifiers = sorted(identifiers, key=lambda x: len(x.split()), reverse=True)
ranked_embeddings = encoder.encode_sentences(ranked_identifiers, normalize_embeddings=True)

以上がPython での LASER 埋め込みを使用したテキスト識別子のセマンティックマッチングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの融合リスト：適切な方法を選択しますMay 14, 2025 am 12:11 AM

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages：1）operatorissimplebutlessforlargelist;

Python 3の2つのリストを連結する方法は？May 14, 2025 am 12:09 AM

Python 3では、2つのリストをさまざまな方法で接続できます。1）小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2）メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3）元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4）Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Python Concatenateリスト文字列May 14, 2025 am 12:08 AM

Join（）メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1）join（）メソッドを使用して、効率的で読みやすくなります。 2）サイクルは、大きなリストに演算子を非効率的に使用します。 3）リスト理解とJoin（）の組み合わせは、変換が必要なシナリオに適しています。 4）redoce（）メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

Pythonの実行、それは何ですか？May 14, 2025 am 12:06 AM

pythonexexecutionistheprocessoftransforningpythoncodeintoexecutabletructions.1）interpreterreadSthecode、変換intobytecode、thepythonvirtualmachine（pvm）executes.2）theglobalinterpreeterlock（gil）管理委員会、

Python：重要な機能は何ですかMay 14, 2025 am 12:02 AM

Pythonの主な機能には次のものがあります。1。構文は簡潔で理解しやすく、初心者に適しています。 2。動的タイプシステム、開発速度の向上。 3。複数のタスクをサポートするリッチ標準ライブラリ。 4.強力なコミュニティとエコシステム、広範なサポートを提供する。 5。スクリプトと迅速なプロトタイピングに適した解釈。 6.さまざまなプログラミングスタイルに適したマルチパラダイムサポート。

Python：コンパイラまたはインタープリター？May 13, 2025 am 12:10 AM

Pythonは解釈された言語ですが、コンパイルプロセスも含まれています。 1）Pythonコードは最初にBytecodeにコンパイルされます。 2）ByteCodeは、Python Virtual Machineによって解釈および実行されます。 3）このハイブリッドメカニズムにより、Pythonは柔軟で効率的になりますが、完全にコンパイルされた言語ほど高速ではありません。

ループvs whileループ用のpython：いつ使用するか？May 13, 2025 am 12:07 AM

useaforloopwhenteratingoverasequenceor foraspificnumberoftimes; useawhileloopwhentinuninguntinuntilaConditionismet.forloopsareidealforknownownownownownownoptinuptinuptinuptinuptinutionsituations whileoopsuitsituations withinterminedationations。

Pythonループ：最も一般的なエラーMay 13, 2025 am 12:07 AM

pythonloopscanleadtoErrorslikeinfiniteloops、ModifiningListsDuringiteration、Off-Oneerrors、Zero-dexingissues、およびNestededLoopinefficiencies.toavoidhese：1）use'i

See all articles