>  기사  >  백엔드 개발  >  중국어 단어 분할에 Python 사용

중국어 단어 분할에 Python 사용

高洛峰
高洛峰원래의
2016-10-18 09:18:341479검색

현재 제가 자주 사용하는 분사로는 말더듬 분사, NLPIR 분사 등이 있습니다.

최근 말더듬 분사를 사용하고 있는데, 꽤 사용하기 쉽습니다.

1. Zhiba 단어 분할 소개

중국어 단어 분할을 위해 Zhiba 단어 분할을 사용하면 세 가지 기본 구현 원칙이 있습니다.

Trie 트리 구조를 기반으로 한 효율적인 단어 그래프 스캐닝 문장에서 한자를 생성하기 가능한 모든 단어 형성 상황으로 구성된 방향성 비순환 그래프(DAG)

동적 프로그래밍을 사용하여 최대 확률 경로를 찾고 단어 빈도를 기준으로 최대 분할 조합을 찾습니다

미등록 단어의 경우 한자의 단어 형성 능력을 기반으로 한 HMM 모델 사용, Viterbi 알고리즘 사용

2. 설치 및 사용(Linux)

1. 도구 다운로드 패키지를 압축 해제하고 디렉토리에 들어가서 다음을 실행합니다: python setup.py install

힌트: a. 다운로드한 소프트웨어를 실행하기 전에 Readme를 읽어 보는 것이 좋습니다. (readme를 읽지 않으면 + Baidu를 직접 시도하면 여러 번 우회하게 됩니다.)

b. 설치 명령을 실행할 때 오류가 발생했습니다: 권한이 없습니다! (권한이 부족하여 이런 문제가 발생할 수 있습니다. 실행: sudo !! 여기서 "!!"는 이전 명령을 의미하며 여기서는 위 설치 명령을 나타냅니다.) sudo를 사용한 후에 정상적으로 실행됩니다.


2. 단어 분할을 위해 Jieba를 사용할 때 사용해야 하는 함수는 다음과 같습니다. jieba.cut(arg1, arg2);

을 사용하려면 다음 세 가지 사항만 이해하면 됩니다. a.cut 메서드는 두 개의 입력 매개 변수를 허용합니다. 첫 번째 매개 변수(arg1)는 분할해야 하는 문자열이고 arg2 매개 변수는 제어하는 ​​데 사용됩니다. 단어 분할 모드.

단어 분할 모드는 두 가지 범주로 나뉩니다. 문장을 가장 정확한 형태로 잘라내는 기본 모드, 문장의 모든 단어를 스캔하는 전체 모드입니다. 검색 엔진에 적합한 단어로 변환될 수 있습니다

b. 분할할 문자열은 gbk 문자열, utf-8 문자열 또는 유니코드일 수 있습니다

파이썬을 사용하는 사람들은 주의해야 합니다. 인코딩 문제 Python은 ASCII 코드를 기반으로 문자를 처리합니다. ASCII에 속하지 않는 문자가 나타나면(예: 코드에 중국어 문자 사용) "ASCII 코덱이 문자를 인코딩할 수 없습니다."라는 오류 메시지가 나타납니다. 파일 상단에 명령문을 추가하려면: #! -*-coding:utf- 8 -*- Python 컴파일러에 다음을 알리십시오. "내 파일은 utf-8로 인코딩되었습니다. 디코딩하려면 utf-를 사용하십시오. 8." (여기서 이 명령은 반드시 파일 상단에 추가해야 한다는 점을 기억하세요. 상단에 없으면 인코딩 문제가 여전히 존재하며 해결되지 않습니다.) 인코딩 변환에 대해서는 블로그 게시물(ps)을 참고하시면 됩니다. : "import sys reload( sys) sys.setdefaultencoding('utf-8')"에 대한 개인적인 이해 이 문장은 "#! -*-coding:utf-8 -*- ")

에 해당합니다. c.jieba.cut에 의해 반환된 구조 이는 반복 가능한 생성기입니다. for 루프를 사용하여 단어 분할 후 얻은 각 단어(유니코드)를 얻거나 list(jieba.cut(...))를 사용하여 변환할 수 있습니다. 목록으로

3. 다음은 jieba에서 그림으로 제공하는 사용 방법입니다.

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)
  
seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

출력 결과 는 :

Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/ 学  
Default Mode: 我/ 来到/ 北京/ 清华大学

3. 그 외 한자 단어 분할 기능

1. 맞춤 사전 추가 또는 관리

말더듬의 모든 사전 내용은 dict.txt에 저장되며 dict.txt의 내용을 계속 개선할 수 있습니다.

2. 키워드 추출

단어 분할 후 키워드의 TF/IDF 가중치를 계산하여 핵심 키워드를 추출합니다.


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.