機器學習中很重要的應用場景就是機器自動分類,而分類的關鍵是詞幹擷取。所以我們要用到snowball。下面說一下snowball 提取詞幹的兩種方法。
兩種方法:
方法一:
>>> from nltk import SnowballStemmer
>>> SnowballStemmer.languages # See which languages are supported
('dandanish',),'dan , 'french', 'german', 'hungarian',
'italian', 'norwegian', 'porter', 'portuguese", 'romanian',
'russian', 'spanish', 'swedish')
>> > stemmer = SnowballStemmer("german") # Choose a language
>>> stemmer.stem(u"Autobahnen") # Stem a word
u'autobahn'
但是當你知道你使用的語言場景的時候可以使用下面的方法直接呼叫:
方法二:
>>> ps = nltk.stem.snowball.PortugueseStemmer()
>>> ps.stem('celular')
u'celul'
>>> ps.stem(' celular')
u'celul'