Python에서 LASER 임베딩을 사용한 텍스트 식별자의 의미 매칭-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python에서 LASER 임베딩을 사용한 텍스트 식별자의 의미 매칭

Linda Hamilton

Nov 25, 2024 am 05:33 AM

Semantic Matching of Text Identifiers Using LASER Embeddings in Python

OCR을 사용하여 재무 보고서를 디지털화할 때 해당 보고서 내의 특정 범주를 감지하기 위한 다양한 접근 방식을 접할 수 있습니다. 예를 들어, Levenshtein 알고리즘과 같은 기존 방법을 편집 거리를 기반으로 한 문자열 일치에 사용할 수 있으므로 텍스트의 오타나 작은 변형 수정과 같은 근접 일치 항목을 처리하는 데 효과적입니다.

그러나 보고서의 한 줄에서 여러 카테고리를 감지해야 하는 경우, 특히 해당 카테고리가 예상대로 정확하게 표시되지 않거나 의미상 겹칠 수 있는 경우에는 문제가 더욱 복잡해집니다.

이 게시물에서는 Facebook의 LASER(Language-Agnostic SEntence Representations) 임베딩을 사용하여 의미론적 일치 접근 방식을 분석하여 이 작업을 효과적으로 처리할 수 있는 방법을 보여줍니다.

문제

주어진 텍스트 줄에서 특정 금융 조건(카테고리)을 식별하는 것이 목표입니다. 다음과 같이 가능한 모든 관심 용어를 나타내는 미리 정의된 고정된 범주 세트가 있다고 가정해 보겠습니다.

["수익", "영업 비용", "영업 이익", "감가상각비", "이자", "순이익", "세금", "세후 이익", "메트릭 1"]

다음과 같은 입력 라인이 주어졌을 때:

"영업이익, 순이익, 세후이익"

우리는 이 줄에 어떤 식별자가 나타나는지 감지하는 것을 목표로 합니다.

LASER를 사용한 의미론적 일치

정확하거나 모호한 텍스트 일치에 의존하는 대신 의미론적 유사성을 사용합니다. 이 접근 방식은 LASER 임베딩을 활용하여 텍스트의 의미론적 의미를 포착하고 코사인 유사성을 사용하여 비교합니다.

구현

텍스트 전처리

삽입하기 전에 텍스트를 소문자로 변환하고 추가 공백을 제거하는 방식으로 전처리됩니다. 이는 균일성을 보장합니다.

def preprocess(text):
    return text.lower().strip()

내장 식별자 및 입력 라인

레이저 인코더는 식별자 목록과 입력/OCR 라인 모두에 대해 정규화된 임베딩을 생성합니다.

identifier_embeddings = encoder.encode_sentences(identifiers, normalize_embeddings=True)
ocr_line_embedding = encoder.encode_sentences([ocr_line], normalize_embeddings=True)[0]

특이성에 따른 식별자 순위 지정

긴 식별자는 단어 수에 따라 정렬되어 우선순위가 지정됩니다. 이는 긴 식별자에 짧은 식별자가 포함될 수 있는 중첩된 일치를 처리하는 데 도움이 됩니다(예: "세후 이익"에 "이익"이 포함됨).

ranked_identifiers = sorted(identifiers, key=lambda x: len(x.split()), reverse=True)
ranked_embeddings = encoder.encode_sentences(ranked_identifiers, normalize_embeddings=True)

유사성 계산

코사인 유사성을 사용하여 각 식별자가 입력 라인과 의미론적으로 얼마나 유사한지 측정합니다. 지정된 임계값을 초과하는 유사성을 갖는 식별자는 일치하는 것으로 간주됩니다.

matches = []
threshold = 0.6

for idx, identifier_embedding in enumerate(ranked_embeddings):
    similarity = cosine_similarity([identifier_embedding], [ocr_line_embedding])[0][0]
    if similarity >= threshold:
        matches.append((ranked_identifiers[idx], similarity))

중첩된 일치 해결

겹치는 식별자를 처리하기 위해 더 긴 일치 항목에 우선순위를 두고 그 안에 있는 더 짧은 일치 항목은 제외됩니다.

def preprocess(text):
    return text.lower().strip()

결과

코드가 실행되면 유사성 점수와 함께 검색된 일치 항목 목록이 출력됩니다. 입력 예시:

identifier_embeddings = encoder.encode_sentences(identifiers, normalize_embeddings=True)
ocr_line_embedding = encoder.encode_sentences([ocr_line], normalize_embeddings=True)[0]

더 길고 복잡한 입력에 대한 고려 사항

이 방법은 한 줄에 여러 카테고리가 있는 구조화된 재무 보고서에 적합합니다. 단, 카테고리가 너무 많지 않거나 관련 없는 텍스트가 많지 않아야 합니다. 그러나 더 길고 복잡한 입력이나 구조화되지 않은 사용자 생성 텍스트의 경우 임베딩이 관련 카테고리에 집중하는 데 어려움을 겪을 수 있으므로 정확성이 저하될 수 있습니다. 시끄럽거나 예측할 수 없는 입력에 대해서는 신뢰성이 떨어집니다.

결론

이 게시물에서는 LASER 임베딩이 텍스트에서 여러 카테고리를 감지하는 데 유용한 도구가 될 수 있는 방법을 보여줍니다. 최선의 선택입니까? 그렇지 않을 수도 있지만 특히 기존 일치 기술이 부족할 수 있는 복잡한 시나리오를 처리할 때 고려할 가치가 있는 옵션 중 하나입니다.

전체 코드

ranked_identifiers = sorted(identifiers, key=lambda x: len(x.split()), reverse=True)
ranked_embeddings = encoder.encode_sentences(ranked_identifiers, normalize_embeddings=True)

위 내용은 Python에서 LASER 임베딩을 사용한 텍스트 식별자의 의미 매칭의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python의 병합 목록 : 올바른 메소드 선택May 14, 2025 am 12:11 AM

Tomergelistsinpython, youcanusethe operator, extendmethod, listcomprehension, oritertools.chain, 각각은 각각의 지위를 불러 일으킨다

Python 3에서 두 목록을 연결하는 방법은 무엇입니까?May 14, 2025 am 12:09 AM

Python 3에서는 다양한 방법을 통해 두 개의 목록을 연결할 수 있습니다. 1) 작은 목록에 적합하지만 큰 목록에는 비효율적입니다. 2) 메모리 효율이 높지만 원래 목록을 수정하는 큰 목록에 적합한 확장 방법을 사용합니다. 3) 원래 목록을 수정하지 않고 여러 목록을 병합하는 데 적합한 * 운영자 사용; 4) 메모리 효율이 높은 대형 데이터 세트에 적합한 itertools.chain을 사용하십시오.

Python은 문자열을 연결합니다May 14, 2025 am 12:08 AM

join () 메소드를 사용하는 것은 Python의 목록에서 문자열을 연결하는 가장 효율적인 방법입니다. 1) join () 메소드를 사용하여 효율적이고 읽기 쉽습니다. 2)주기는 큰 목록에 비효율적으로 운영자를 사용합니다. 3) List Comprehension과 Join ()의 조합은 변환이 필요한 시나리오에 적합합니다. 4) READE () 방법은 다른 유형의 감소에 적합하지만 문자열 연결에 비효율적입니다. 완전한 문장은 끝납니다.

파이썬 실행, 그게 뭐야?May 14, 2025 am 12:06 AM

pythonexecutionissprocessoftransformingpythoncodeintoExecutableInstructions.1) the -interreadsTheCode, ConvertingItintoByTecode, thethepythonVirtualMachine (pvm)을 실행합니다

파이썬 : 주요 기능은 무엇입니까?May 14, 2025 am 12:02 AM

Python의 주요 특징은 다음과 같습니다. 1. 구문은 간결하고 이해하기 쉽고 초보자에게 적합합니다. 2. 개발 속도 향상, 동적 유형 시스템; 3. 여러 작업을 지원하는 풍부한 표준 라이브러리; 4. 광범위한 지원을 제공하는 강력한 지역 사회와 생태계; 5. 스크립팅 및 빠른 프로토 타이핑에 적합한 해석; 6. 다양한 프로그래밍 스타일에 적합한 다중-파라 디그 지원.

파이썬 : 컴파일러 또는 통역사?May 13, 2025 am 12:10 AM

Python은 해석 된 언어이지만 편집 프로세스도 포함됩니다. 1) 파이썬 코드는 먼저 바이트 코드로 컴파일됩니다. 2) 바이트 코드는 Python Virtual Machine에 의해 해석되고 실행됩니다. 3)이 하이브리드 메커니즘은 파이썬이 유연하고 효율적이지만 완전히 편집 된 언어만큼 빠르지는 않습니다.

루프 대 루프를위한 파이썬 : 루프시기는 언제 사용해야합니까?May 13, 2025 am 12:07 AM

USEAFORLOOPHENTERATINGOVERASERASERASPECIFICNUMBEROFTIMES; USEAWHILLOOPWHENTINUTIMONDITINISMET.FORLOOPSAREIDEALFORKNOWNSEDINGENCENCENS, WHILEWHILELOOPSSUITSITUATIONS WITHERMINGEDERITERATIONS.

파이썬 루프 : 가장 일반적인 오류May 13, 2025 am 12:07 AM

Pythonloopscanleadtoerrors likeinfiniteloops, modifyinglistsdizeration, off-by-by-byerrors, zero-indexingissues, andnestedloopineficiencies.toavoidthese : 1) aing'i

See all articles