Maison >développement back-end >Tutoriel Python >Trois outils de segmentation de mots chinois Python couramment utilisés
Cet article partage avec vous trois outils de segmentation de mots chinois python couramment utilisés, qui ont une certaine valeur de référence. Les amis dans le besoin peuvent se référer à
Ces trois outils de segmentation de mots, dans Partager ici~
Participe 1.jieba :# -*- coding: UTF-8 -*- import os import codecs import jieba seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。') f1 = codecs.open("d2w_ltp.txt","w") print "/".join(seg_list) for i in seg_list: f1.write(i.encode("utf-8")) f1.write(str(" "))Effet :
邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。Cela inclut les participes bégayant et l'écriture dans des fichiers La forme vaut notant que le codage de caractères dérivé de la segmentation saccadée est le codage « Unicode » Nous devons convertir l'unicode -> utf-8
Voici le github du professeur Zhang Huaping Pour l'adresse, les amis qui en ont besoin peut aller sur le git du professeur pour obtenir la licence
Il en existe deux types : un mois de dix jours
Bien sûr, je vais vous donner le code détaillé et le package d'installation. Il a également été téléchargé sur CSDN. Les amis intéressés peuvent y jeter un œil (vous devez encore mettre à jour la licence)
Il convient de mentionner que la plupart des journaux nationaux utilisent cet outil de segmentation de mots, qui fait plus autorité<.>
Effet :
r = open('text_no_seg.txt','r') list_senten = [] sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。' for i in seg(sentence): list_senten.append(i[0]) print "/".join(list_senten) f1 = codecs.open("d2w_ltp.txt","w") for i in seg(sentence): f1.write(i[0]) f1.write(str(" "))
Bien sûr, le NLPIR a également un très bon effet dans la reconnaissance des entités nommées :
邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。
邓超 nr , wd 1979年 t 出生 vi 于 p 江西 ns 南昌 ns , wd 中国 ns 内地 s 男 b 演员 n 、 wn 电影 n 导演 n 、 wn 投资 n 出品 vi 人 n 、 wn 互联网 n 投资人 n 。 wj
3. Institut de technologie de Harbin LTP
# -*- coding: UTF-8 -*- import os import codecs from pyltp import Segmentor #分词 def segmentor(sentence): segmentor = Segmentor() # 初始化实例 segmentor.load('ltp_data/cws.model') # 加载模型 words = segmentor.segment(sentence) # 分词 words_list = list(words) segmentor.release() # 释放模型 return words_list f1 = codecs.open("d2w_ltp.txt","w") sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。' print "/".join(segmentor(sentence)) for i in segmentor(sentence): f1.write(i) f1.write(str(" "))
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!