Heim >Backend-Entwicklung >Python-Tutorial >Drei häufig verwendete Python-Tools zur chinesischen Wortsegmentierung

Drei häufig verwendete Python-Tools zur chinesischen Wortsegmentierung

零到壹度
零到壹度Original
2018-04-14 11:05:298550Durchsuche

In diesem Artikel werden drei häufig verwendete Python-Wortsegmentierungstools für Chinesisch vorgestellt, die einen bestimmten Referenzwert haben.

Diese drei Wortsegmentierungstools sind hier verfügbar.

1.jieba-Partizip:

# -*- coding: UTF-8 -*-
import os
import codecs
import jieba
seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')

f1 = codecs.open("d2w_ltp.txt","w")
print "/".join(seg_list)

for i in seg_list:
    f1.write(i.encode("utf-8"))
    f1.write(str(" "))

Wirkung:

邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

Dazu gehören stotternde Partizipien und das Schreiben in Dateien. Die Form

ist Es ist erwähnenswert, dass die aus der Stottersegmentierung abgeleitete Zeichenkodierung „Unicode“ ist –> utf-8


2 >

(https://github.com/NLPIR-team/NLPIR)



Hier ist der Github von Lehrer Zhang Huaping. Für die Adresse, Freunde, die brauchen Es kann zum Git des Lehrers gehen, um die Lizenz zu erhalten.

Es gibt zwei Arten: ein Monat mit zehn Tagen


Natürlich gebe ich Ihnen den detaillierten Code und das Installationspaket . Es wurde auch auf CSDN hochgeladen. Interessierte Freunde können einen Blick darauf werfen (Sie müssen die Lizenz noch aktualisieren).

Es ist erwähnenswert, dass die meisten inländischen Zeitungen dieses Wortsegmentierungstool verwenden, das aussagekräftiger ist

r = open('text_no_seg.txt','r')
list_senten = []
sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'
for i in seg(sentence):
   list_senten.append(i[0])

print "/".join(list_senten)

f1 = codecs.open("d2w_ltp.txt","w")
for i in seg(sentence):
   f1.write(i[0])
   f1.write(str(" "))
Wirkung:

邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。
Natürlich hat NLPIR auch eine sehr gute Wirkung bei der Erkennung benannter Entitäten:

邓超 nr
, wd
1979年 t
出生 vi
于 p
江西 ns
南昌 ns
, wd
中国 ns
内地 s
男 b
演员 n
、 wn
电影 n
导演 n
、 wn
投资 n
出品 vi
人 n
、 wn
互联网 n
投资人 n
。 wj


3. Harbin Institute of Technology LTP

# -*- coding: UTF-8 -*-
import os
import codecs

from pyltp import Segmentor
#分词
def segmentor(sentence):
    segmentor = Segmentor()  # 初始化实例
    segmentor.load('ltp_data/cws.model')  # 加载模型
    words = segmentor.segment(sentence)  # 分词
    words_list = list(words)
    segmentor.release()  # 释放模型
    return words_list

f1 = codecs.open("d2w_ltp.txt","w")
sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'
print "/".join(segmentor(sentence))

for i in segmentor(sentence):
    f1.write(i)
    f1.write(str(" "))
Wirkung:

Das obige ist der detaillierte Inhalt vonDrei häufig verwendete Python-Tools zur chinesischen Wortsegmentierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn