ホームページ  >  記事  >  バックエンド開発  >  よく使用される 3 つの Python 中国語単語分割ツール

よく使用される 3 つの Python 中国語単語分割ツール

零到壹度
零到壹度オリジナル
2018-04-14 11:05:298441ブラウズ

この記事では、一般的に使用される 3 つの Python 中国語単語分割ツールを紹介します。必要な友人は参照できます

これら 3 つの単語分割ツールはここで共有されています~

1 .jieba 単語分割:

# -*- coding: UTF-8 -*-
import os
import codecs
import jieba
seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')

f1 = codecs.open("d2w_ltp.txt","w")
print "/".join(seg_list)

for i in seg_list:
    f1.write(i.encode("utf-8"))
    f1.write(str(" "))

効果:

邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

これには、Jieba の単語の分割とファイルへの書き込み形式が含まれます

Jieba の分割の文字エンコードは「Unicode」エンコードであることに注意してください。Unicode -> utf- する必要があります。 8


2. Zhang Huaping 先生の NLPIR

(https://github.com/NLPIR-team/NLPIR)


必要な方のために、Zhang Huaping 先生の github アドレスをここに示します。ライセンスを取得するには、先生の git にアクセスできます

2 つのタイプがあります: 1 か月間 10 日間

もちろん、詳細なコードとインストール パッケージも CSDN にアップロードしましたので、興味のある方は取得してください。見てください (まだ必要です) ライセンスを更新するには)

国内のほとんどの論文が、より権威のあるこの単語分割ツールを使用していることは言及する価値があります

r = open('text_no_seg.txt','r')
list_senten = []
sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'
for i in seg(sentence):
   list_senten.append(i[0])

print "/".join(list_senten)

f1 = codecs.open("d2w_ltp.txt","w")
for i in seg(sentence):
   f1.write(i[0])
   f1.write(str(" "))

効果:

邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。

もちろん、NLPIRは固有表現にも良い影響を与えます認識:

邓超 nr
, wd
1979年 t
出生 vi
于 p
江西 ns
南昌 ns
, wd
中国 ns
内地 s
男 b
演员 n
、 wn
电影 n
导演 n
、 wn
投资 n
出品 vi
人 n
、 wn
互联网 n
投资人 n
。 wj


3.ハルビン工業大学LTP

# -*- coding: UTF-8 -*-
import os
import codecs

from pyltp import Segmentor
#分词
def segmentor(sentence):
    segmentor = Segmentor()  # 初始化实例
    segmentor.load('ltp_data/cws.model')  # 加载模型
    words = segmentor.segment(sentence)  # 分词
    words_list = list(words)
    segmentor.release()  # 释放模型
    return words_list

f1 = codecs.open("d2w_ltp.txt","w")
sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'
print "/".join(segmentor(sentence))

for i in segmentor(sentence):
    f1.write(i)
    f1.write(str(" "))

効果:

邓/超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

以上がよく使用される 3 つの Python 中国語単語分割ツールの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。