>  기사  >  백엔드 개발  >  일반적으로 사용되는 세 가지 Python 중국어 단어 분할 도구

일반적으로 사용되는 세 가지 Python 중국어 단어 분할 도구

零到壹度
零到壹度원래의
2018-04-14 11:05:298441검색

이 기사에서는 일반적으로 사용되는 세 가지 Python 중국어 단어 분할 도구를 공유합니다. 이 도구는 특정 참고 가치가 있습니다. 도움이 필요한 친구는 이를 참조할 수 있습니다.

이 세 가지 단어 분할 도구는 여기에서 공유됩니다~

1 .jieba 단어 분할:

# -*- coding: UTF-8 -*-
import os
import codecs
import jieba
seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')

f1 = codecs.open("d2w_ltp.txt","w")
print "/".join(seg_list)

for i in seg_list:
    f1.write(i.encode("utf-8"))
    f1.write(str(" "))

효과:

邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

여기에는 Jieba의 단어 분할과 파일에 쓰는 형식이 포함됩니다

Jieba 분할의 문자 인코딩이 '유니코드' 인코딩이라는 점에 주목할 필요가 있습니다. 유니코드 -> 8


2. 장화핑 선생님의 NLPIR

(https://github.com/NLPIR-team/NLPIR)


필요하신 분들을 위해 장화핑 선생님의 github 주소를 공개합니다. . 선생님의 Git에 가서 라이센스를 얻을 수 있습니다

두 가지 유형이 있습니다: 한 달 동안 10일

물론 CSDN에 자세한 코드와 설치 패키지도 업로드했습니다. (여전히 필요함) 라이센스를 업데이트하려면)

대부분의 국내 논문에서 이 단어 분할 도구를 사용한다는 점은 언급할 가치가 있습니다. 이 도구는 더 권위가 있습니다

r = open('text_no_seg.txt','r')
list_senten = []
sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'
for i in seg(sentence):
   list_senten.append(i[0])

print "/".join(list_senten)

f1 = codecs.open("d2w_ltp.txt","w")
for i in seg(sentence):
   f1.write(i[0])
   f1.write(str(" "))

효과:

邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。

물론 NLPIR도 명명된 엔터티에 좋은 영향을 미칩니다. 인식:

邓超 nr
, wd
1979年 t
出生 vi
于 p
江西 ns
南昌 ns
, wd
中国 ns
内地 s
男 b
演员 n
、 wn
电影 n
导演 n
、 wn
投资 n
出品 vi
人 n
、 wn
互联网 n
投资人 n
。 wj


3.하얼빈 공과대학 LTP

# -*- coding: UTF-8 -*-
import os
import codecs

from pyltp import Segmentor
#分词
def segmentor(sentence):
    segmentor = Segmentor()  # 初始化实例
    segmentor.load('ltp_data/cws.model')  # 加载模型
    words = segmentor.segment(sentence)  # 分词
    words_list = list(words)
    segmentor.release()  # 释放模型
    return words_list

f1 = codecs.open("d2w_ltp.txt","w")
sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'
print "/".join(segmentor(sentence))

for i in segmentor(sentence):
    f1.write(i)
    f1.write(str(" "))

효과:

邓/超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

위 내용은 일반적으로 사용되는 세 가지 Python 중국어 단어 분할 도구의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.