ホームページ  >  記事  >  バックエンド開発  >  asp.net での中国語単語分割検索ツールの共有

asp.net での中国語単語分割検索ツールの共有

黄舟
黄舟オリジナル
2017-10-08 09:34:522231ブラウズ

jieba は Python の検索ライブラリです。誰かがこのライブラリを asp.net プラットフォームに移植しました。これは、lucene.net と Pangu の単語セグメンテーションの組み合わせを完全に置き換えることができます。昨日のインタビューで、ウェブサイトでキーワード検索をどのように実行していますか? SQL ファジー クエリと SQL ステートメントの最適化とキャッシュについてお話しました。以前にキーワード セグメンテーションに触れたことはありますが、Lucene を使用した Java とは異なり、.net プラットフォームには成熟した単語セグメンテーション検索ライブラリがありません。.net に移植されていますが、更新が遅いです。以前Pythonを勉強していたときに、Pythonの単語分割検索とワードクラウドの作成に気づき、.netに移植できるPythonの単語分割検索ライブラリはないものかと思って調べてみたら、案の定、Pythonのjiebaライブラリが移植されていました。

原文紹介: jieba 中国語単語分割の .NET バージョン: jieba.NET

.NET プラットフォーム上の一般的な単語分割コンポーネントは Pangu 単語分割コンポーネントですが、長い間更新されていません。最も明白なのは、内蔵辞書には 500,000 のエントリがあるのに対し、Pangu の辞書には 170,000 のエントリが含まれていることです。これにより、単語の分割効果が大幅に異なります。また、未登録の単語については、jieba は「漢字の語形成能力に基づく HMM モデルを採用し、ビタビ アルゴリズムを使用」しており、効果は良好です。

VS2013 の nuget パッケージ マネージャーで直接検索してダウンロードすることもできます:

コメントで、産業および情報技術の処女役員が 24 ポート スイッチと他の技術的なデバイスを毎月下位部門を通じてインストールしてみてください。うまくセグメント化できれば、それは良いことです。私自身でテストしてみました。


フルモード、残りは私たち人間が読む順序を満たすことができます

以上がasp.net での中国語単語分割検索ツールの共有の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。