Maison  >  Article  >  développement back-end  >  Trois outils de segmentation de mots chinois Python couramment utilisés

Trois outils de segmentation de mots chinois Python couramment utilisés

零到壹度
零到壹度original
2018-04-14 11:05:298441parcourir

Cet article partage avec vous trois outils de segmentation de mots chinois python couramment utilisés, qui ont une certaine valeur de référence. Les amis dans le besoin peuvent se référer à

Ces trois outils de segmentation de mots, dans Partager ici~

Participe 1.jieba :

# -*- coding: UTF-8 -*-
import os
import codecs
import jieba
seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')

f1 = codecs.open("d2w_ltp.txt","w")
print "/".join(seg_list)

for i in seg_list:
    f1.write(i.encode("utf-8"))
    f1.write(str(" "))
Effet :

邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。
Cela inclut les participes bégayant et l'écriture dans des fichiers La forme

vaut notant que le codage de caractères dérivé de la segmentation saccadée est le codage « Unicode » Nous devons convertir l'unicode -> utf-8


2.

(https://github.com/NLPIR-team/NLPIR)



Voici le github du professeur Zhang Huaping Pour l'adresse, les amis qui en ont besoin peut aller sur le git du professeur pour obtenir la licence

Il en existe deux types : un mois de dix jours


Bien sûr, je vais vous donner le code détaillé et le package d'installation. Il a également été téléchargé sur CSDN. Les amis intéressés peuvent y jeter un œil (vous devez encore mettre à jour la licence)

Il convient de mentionner que la plupart des journaux nationaux utilisent cet outil de segmentation de mots, qui fait plus autorité<.>

Effet :

r = open(&#39;text_no_seg.txt&#39;,&#39;r&#39;)
list_senten = []
sentence = &#39;邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。&#39;
for i in seg(sentence):
   list_senten.append(i[0])

print "/".join(list_senten)

f1 = codecs.open("d2w_ltp.txt","w")
for i in seg(sentence):
   f1.write(i[0])
   f1.write(str(" "))

Bien sûr, le NLPIR a également un très bon effet dans la reconnaissance des entités nommées :

邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。

邓超 nr
, wd
1979年 t
出生 vi
于 p
江西 ns
南昌 ns
, wd
中国 ns
内地 s
男 b
演员 n
、 wn
电影 n
导演 n
、 wn
投资 n
出品 vi
人 n
、 wn
互联网 n
投资人 n
。 wj

3. Institut de technologie de Harbin LTP

Effet :

# -*- coding: UTF-8 -*-
import os
import codecs

from pyltp import Segmentor
#分词
def segmentor(sentence):
    segmentor = Segmentor()  # 初始化实例
    segmentor.load(&#39;ltp_data/cws.model&#39;)  # 加载模型
    words = segmentor.segment(sentence)  # 分词
    words_list = list(words)
    segmentor.release()  # 释放模型
    return words_list

f1 = codecs.open("d2w_ltp.txt","w")
sentence = &#39;邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。&#39;
print "/".join(segmentor(sentence))

for i in segmentor(sentence):
    f1.write(i)
    f1.write(str(" "))

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn