首頁  >  文章  >  後端開發  >  nltk 之 snowball 提取詞幹

nltk 之 snowball 提取詞幹

高洛峰
高洛峰原創
2016-10-18 10:12:574476瀏覽

機器學習中很重要的應用場景就是機器自動分類,而分類的關鍵是詞幹擷取。所以我們要用到snowball。下面說一下snowball 提取詞幹的兩種方法。

兩種方法:

方法一:

>>> from nltk import SnowballStemmer
>>> SnowballStemmer.languages # See which languages are supported
('dandanish',),'dan , 'french', 'german', 'hungarian',
'italian', 'norwegian', 'porter', 'portuguese", 'romanian',
'russian', 'spanish', 'swedish')
>> > stemmer = SnowballStemmer("german") # Choose a language
>>> stemmer.stem(u"Autobahnen") # Stem a word
u'autobahn'
但是當你知道你使用的語言場景的時候可以使用下面的方法直接呼叫:
方法二:
>>> ps = nltk.stem.snowball.PortugueseStemmer()
>>> ps.stem('celular')
u'celul'
>>> ps.stem(' celular')
u'celul'


陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn