ホームページ >バックエンド開発 >Python チュートリアル >IKAnalyzer トークナイザーを使用して拡張辞書をカスタマイズする方法

IKAnalyzer トークナイザーを使用して拡張辞書をカスタマイズする方法

坏嘻嘻
坏嘻嘻オリジナル
2018-09-14 16:54:574801ブラウズ

この記事では主に IKAnalyzer の単語分割ツールを使用して拡張辞書をカスタマイズする方法を紹介します。

IKAnalyzer 完全配布パッケージをダウンロードすると、IK Analyzer インストール パッケージには次のものが含まれます:
1.「IKAnalyzer Chinese Word Segmenter V2012 ユーザー マニュアル」
2. IKAnalyzer2012.jar (メイン jar パッケージ)
3 . IKAnalyzer.cfg.xml (単語セグメンター拡張構成ファイル)
4. stopword.dic (停止辞書)
5. LICENSE.TXT; NOTICE.TXT (Apache 著作権ステートメント)
そのインストールとデプロイメントは非常に簡単です シンプルです。IKAnalyzer2012.jar をプロジェクトの lib ディレクトリにデプロイします。
IKAnalyzer.cfg.xml および stopword.dic ファイルはクラス ルート ディレクトリに配置されます (Web プロジェクトの場合、通常は
WEB- INF/classes ディレクトリ、同じです。hibernate、log4j、およびその他の設定ファイルも同じです)。

カスタム辞書を拡張するには、IKAnalyzer.cfg.xml

IKAnalyzer トークナイザーを使用して拡張辞書をカスタマイズする方法

を開き、拡張辞書のコメントを削除します。

IKAnalyzer トークナイザーを使用して拡張辞書をカスタマイズする方法

同時に、クラスのルート ディレクトリ、つまり src フォルダーに新しい ext.dic ファイルを作成します。ビルドしたら、メモ帳ソフトウェアを使用して ext.dic を開きます。

IKAnalyzer トークナイザーを使用して拡張辞書をカスタマイズする方法

関連する推奨事項:

Java オープン ソース 11 中国語単語セグメンターの使用方法の詳細な説明と単語セグメンテーション効果の比較

Discuz キーワード サーバーを使用して PHP 中国語単語セグメンテーションを実装する_PHP チュートリアル

以上がIKAnalyzer トークナイザーを使用して拡張辞書をカスタマイズする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。