Heim >Backend-Entwicklung >Python-Tutorial >有哪些高质量的中文分词api?

有哪些高质量的中文分词api?

WBOY
WBOYOriginal
2016-06-06 16:23:121469Durchsuche

最好多多推荐一些对中国本土的一些互联网用词——比如说“卧槽,给力,牛逼,好六,六六六,水贴,爆吧,女票,男票,蓝孩子,孩纸”之类的俚语也能有很好的分词能力的中文分词API就好了。

回复内容:

稍微体验过的,简单收录下
  1. 哈工大:语言云(语言技术平台云 LTP-Cloud)
  2. 东北大学NiuTrans统计机器翻译系统:东北大学自然语言处理实验室
  3. 中科院张华平博士ICTCLAS :NLPIR汉语分词系统
  4. 波森科技:首页 - BosonNLP
  5. 结巴:fxsjy/jieba · GitHub
  6. Ansj分词:中国自然语言开源组织
没有特别对比,2和3貌似没有API 楼上暴君说得很详细了,我就贴一个我觉得分词最准确的一个吧
http://bosonnlp.com/

总的来说很准确,当然也不是任何时候都管用...... 233333333
有哪些高质量的中文分词api? 结巴分词。项目地址:fxsjy/jieba · GitHub
<code class="language-python"><span class="o">>>></span><span class="n">seg_list</span> <span class="o">=</span> <span class="n">jieba</span><span class="o">.</span><span class="n">cut</span><span class="p">(</span><span class="s">"他来到了网易杭研大厦"</span><span class="p">)</span> 
<span class="o">>>></span><span class="k">print</span> <span class="s">", "</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">seg_list</span><span class="p">)</span>
<span class="err">他</span><span class="p">,</span> <span class="err">来到</span><span class="p">,</span> <span class="err">了</span><span class="p">,</span> <span class="err">网易</span><span class="p">,</span> <span class="err">杭研</span><span class="p">,</span> <span class="err">大厦</span>
</code>
pullword在线分词服务__API服务_API服务_API Store 除了jieba补充两个,一个是哈工大的语言云,另一个是波森科技的NLP API。不过我没有对这三者进行横向测评过。 我用过jieba效果还阔以,用的不多。 不过听说stanfordnlp也支持中文分词,容我崇洋媚外一把 也许stanford更牛逼一点 张华平博士的东西什么都好,就是要定期更新用户授权 我用过腾讯文智的API觉得还行,简单,分词效果不错。可以试一试 词云的制作方法 以前用的庖丁解牛分词器 ,不过是潜入到lucene里面用的。对中文分词 挺不错的
Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn