연속된 텍스트를 단어 목록으로 효율적으로 분할
질문은 과제를 제기합니다. 공백이 없는 텍스트 문자열이 주어지면 추출하는 알고리즘을 고안하세요. 개별 단어입니다.
순진한 접근 방식은 가능한 가장 긴 단어를 반복적으로 식별하고 제거합니다. 그러나 이 전략은 실제 시나리오에서는 비효율적일 수 있습니다.
확률적 접근 방식
이러한 한계를 극복하기 위해 확률 모델은 단어 빈도를 알고리즘에 통합합니다. Zipf의 법칙은 단어 빈도 순위에 반비례하여 단어의 확률을 추정합니다.
이 모델을 사용하여 가능한 각 단어 구분에 대한 비용 함수를 전체 문장의 음의 로그 확률로 정의할 수 있습니다. 휴식을 취해야했습니다. 동적 프로그래밍을 사용하여 총 비용이 가장 낮은 단어 나누기를 찾습니다.
구현
아래 제공된 Python 코드는 이 알고리즘을 구현합니다.
<code class="python">from math import log # Build a cost dictionary based on Zipf's law words = open("words-by-frequency.txt").read().split() maxword = max(len(x) for x in words) wordcost = dict((k, log((i+1)*log(len(words)))) for i,k in enumerate(words)) def infer_spaces(s): cost = [0] for i in range(1,len(s)+1): candidates = enumerate(reversed(cost[max(0, i-maxword):i])) c,k = min((c + wordcost.get(s[i-k-1:i], 9e999), k+1) for k,c in candidates) cost.append(c) out = [] i = len(s) while i>0: c,k = best_match(i) assert c == cost[i] out.append(s[i-k:i]) i -= k return " ".join(reversed(out))</code>
이 코드 사용:
<code class="python">s = 'thumbgreenappleactiveassignmentweeklymetaphor' print(infer_spaces(s))</code>
생성:
thumb green apple active assignment weekly metaphor
최적화
더 나은 효율성을 위해 다음에서 접미사 트리를 구성할 수 있습니다. 검색 공간을 줄이기 위해 단어 목록을 사용합니다. 입력 문자열을 더 작은 덩어리로 분할하면 메모리 사용량도 줄일 수 있습니다.
결론
단어 빈도를 모델링하고 동적 프로그래밍을 사용하여 연속 텍스트를 분할하는 효율적인 알고리즘을 얻습니다. 개별 단어로 변환하여 실제 텍스트에 대한 정확한 결과를 제공합니다.
위 내용은 확률적 접근 방식을 사용하여 인접한 텍스트를 단어 목록으로 효율적으로 분할할 수 있는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!