기계 학습에서 매우 중요한 응용 시나리오는 자동 기계 분류이며, 분류의 핵심은 형태소 분석입니다. 그래서 우리는 눈덩이를 사용해야 합니다. 스노우볼이 줄기를 추출하는 두 가지 방법에 대해 이야기해 보겠습니다.
두 가지 방법:
방법 1:
>>> from nltk import SnowballStemmer
>>> SnowballStemmer.언어s # 지원되는 언어 확인
('덴마크어', '네덜란드어', '영어', '핀란드어', '프랑스어', '독일어', '헝가리어',
'이탈리아어', '노르웨이어', '포터', '포르투갈어" , 'romanian',
'russian', 'spanish', 'swedish')
>>> Stemmer = SnowballStemmer("german") # 언어 선택
>>> Stemmer.stem(u" Autobahnen") # 단어 어간
u'autobahn'
그러나 사용 중인 언어 시나리오를 알고 있으면 다음 방법을 사용하여 직접 호출할 수 있습니다.
방법 2:
>> > ps = nltk.stem .snowball.PortugueseStemmer()
>>> ps.stem('celular')
u'celul'
>>> ps.stem('celular')
유'셀룰'