>  기사  >  백엔드 개발  >  공백 없이 텍스트를 단어 목록으로 어떻게 분할할 수 있나요?

공백 없이 텍스트를 단어 목록으로 어떻게 분할할 수 있나요?

Patricia Arquette
Patricia Arquette원래의
2024-11-04 12:35:02578검색

How Can We Split Text Without Spaces Into a List of Words?

공백 없이 텍스트를 단어 목록으로 분할

소개

이 기사에서는 공백이 없는 텍스트 문자열을 단어 목록으로 효율적으로 분할하는 복잡성에 대해 자세히 설명합니다. 의미 있는 단어 목록 실제 데이터에 대한 정확한 결과를 얻기 위해 단어 빈도를 활용하는 알고리즘을 탐구합니다.

알고리즘

알고리즘은 Zipf의 법칙에 따라 단어가 독립적으로 분포된다는 가정하에 작동합니다. 이는 n순위의 단어가 사전에서 나올 확률이 대략 1/(n log N)임을 의미하며, 여기서 N은 사전에 있는 전체 단어 수를 의미합니다.

순위를 유추하려면 공간에서는 동적 프로그래밍을 사용합니다. 우리는 단어 확률의 역의 로그를 활용하는 비용 함수를 정의합니다. 최적의 문장은 동적 프로그래밍을 사용하여 효율적으로 계산할 수 있는 개별 단어 비용의 곱을 최대화합니다.

구현

다음 Python 코드는 알고리즘을 구현합니다.

<code class="python">import math

words = open("words-by-frequency.txt").read().split()
wordcost = dict((k, log((i+1)*log(len(words)))) for i,k in enumerate(words))
maxword = max(len(x) for x in words)

def infer_spaces(s):
    cost = [0]
    for i in range(1,len(s)+1):
        c,k = best_match(i)
        cost.append(c)

    out = []
    i = len(s)
    while i>0:
        c,k = best_match(i)
        out.append(s[i-k:i])
        i -= k

    return " ".join(reversed(out))</code>

데모

제공된 코드를 사용하면 공백 없이 텍스트 문자열을 분할하고 의미 있는 단어를 얻을 수 있습니다.

s = 'thumbgreenappleactiveassignmentweeklymetaphor'
print(infer_spaces(s))

결과

알고리즘은 공백의 위치를 ​​효과적으로 추론합니다. 짧은 텍스트 문자열과 긴 텍스트 문자열 모두에 대해 정확한 단어 인식이 가능합니다. 명시적인 구분 기호가 없더라도 출력은 높은 수준의 일관성과 가독성을 유지합니다.

이점

알고리즘은 다음과 같은 여러 가지 이점을 제공합니다.

  • 정확한 단어 인식 , 공백이 없는 경우에도
  • 효율적인 시간 및 메모리 소비
  • 대규모 텍스트 데이터세트의 구현 용이성 및 확장성

위 내용은 공백 없이 텍스트를 단어 목록으로 어떻게 분할할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.