ホームページ  >  記事  >  バックエンド開発  >  nltk のスノーボール抽出茎

nltk のスノーボール抽出茎

高洛峰
高洛峰オリジナル
2016-10-18 10:12:574476ブラウズ

機械学習における非常に重要なアプリケーション シナリオは、機械による自動分類であり、分類の鍵となるのはステミングです。したがって、snowball を使用する必要があります。 Snowball がステムを抽出する 2 つの方法について話しましょう。

2 つの方法:

方法 1:

>>> from nltk import SnowballStemmer
>>> SnowballStemmer.langages # サポートされている言語を確認します
('デンマーク語', 'オランダ語', '英語', 'フィンランド語'、'フランス語'、'ドイツ語'、'ハンガリー語'、
'イタリア語'、'ノルウェー語'、'ポーター'、'ポルトガル語'、'ルーマニア語'、
'ロシア語'、'スペイン語'、'スウェーデン語')
>> > Stemmer = SnowballStemmer("german") # 言語を選択します
>>> Stemmer.stem(u"Autobahnen") # 単語を語幹化します
u'autobahn'
しかし、使用している言語シナリオがわかっていれば、次のものを使用できます。メソッドは直接呼び出されます:
方法 2:
>>> ps = nltk.stem.snowball.PortugueseStemmer()
>>> ps.stem('celular')
u'celul'
>> > ps.stem('セルラー')
u'セルラー'


声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。