ホームページ > 記事 > WeChat アプレット > Nlpir Parser の 12 の機能検索およびマイニング インテリジェント プラットフォーム
テキストマイニングは、データマイニングにおいてますます人気があり重要な研究分野となっています。データ ウェアハウス内の関係、トランザクション、構造化データに焦点を当てる一般的なデータ マイニングとは異なり、テキスト マイニングによって調査されるテキスト データベースは、さまざまなデータ ソースからの多数のドキュメントで構成されます。これらの文書には、タイトル、著者、発行日、長さなどの構造化データが含まれる場合もあれば、要約や内容などの非構造化テキストコンポーネントが含まれる場合もあります。さらに、これらの文書の内容は人間が使用する自然言語です。コンピュータがそのセマンティクスを処理するのは困難です。したがって、従来の情報検索テクノロジーは、大量のテキスト データを処理するという増大するニーズに対応できなくなり、さまざまなドキュメントを比較してドキュメントの重要性と関連性を整理したり、複数のドキュメントのパターンや傾向を見つけたりするためのテキスト マイニング手法が提案されています。分析を待ちます。
Nlpir Parser 検索およびマイニング インテリジェント プラットフォームは、ネットワーク検索、自然言語理解、テキスト マイニング技術開発のための基本的なツール セットです。開発プラットフォームは複数のミドルウェアで構成されており、各ミドルウェア API はさまざまなタイプの顧客にシームレスに統合できます。複雑なアプリケーション システムでは、Windows、Linux、FreeBSD などのさまざまなオペレーティング システムと互換性があり、Java、C、C# などのさまざまな開発言語で使用できます。
Nlpir Parserの検索およびマイニングインテリジェントプラットフォームは、オリジナルのテキストセットの処理と処理のために特別に設計されたソフトウェアのセットであり、ミドルウェアの処理効果を視覚的に表示し、小規模なデータ処理ツールとしても使用できます。ユーザーはこのソフトウェアを使用して自分のデータを処理できます。
Nlpir Parser検索およびマイニングインテリジェントプラットフォームの12の機能:
1. 正確な全文検索:テキスト、数値、日付、文字列などのさまざまなデータタイプをサポートし、複数のフィールドで効率的な検索をサポートし、AND/をサポートします。 OR/NOT NEAR 近接などのクエリ構文に加え、ウイグル語、チベット語、モンゴル語、アラビア語、韓国語、その他の少数言語での検索もサポートしています。既存のテキスト処理システムやデータベース システムとシームレスに統合できます。
2. 新しい単語の発見: ファイルコレクションから発掘された含意のある新しい単語のリストを使用して、ユーザーの専門辞書を編集することもでき、注釈をさらに編集して単語分割辞書にインポートすることもでき、それによって単語の精度が向上します。単語分割システムと新しい言語の変更への適応。
3. 単語分割:元のコーパスに対して単語分割を行い、人名、地名、機関名などの未登録単語の自動識別、新語注釈、品詞タグ付けを行います。また、分析プロセス中にユーザー定義の辞書をインポートできます。
4. 統計分析と用語翻訳:セグメンテーションアノテーションの結果に基づいて、システムはユニグラム単語頻度統計とバイナリ単語遷移確率統計(2つの単語間の左右の接続の頻度をカウントする、つまり確率)を自動的に実行できます。 。よく使われる用語については、対応する英語の説明が自動的に表示されます。
5. テキストクラスタリングとホットスポット分析: 大規模なデータからホットイベントを自動的に分析し、イベントトピックの主要な機能の説明を提供できます。テキストメッセージやWeiboなどの長文・短文のホットスポット分析にも適しています。
6.分類フィルタリング:事前に指定されたルールと例に基づいて、システムは大量の文書からニーズを満たすサンプルを自動的にフィルタリングします。
7. ポジティブ分析とネガティブ分析: 事前に指定された分析対象と例に基づいて、システムは大量のドキュメントからポジティブスコアとネガティブスコアと文サンプルを自動的にフィルタリングします。
8. 自動要約:単一または複数の記事の内容のエッセンスを自動的に抽出できるため、ユーザーがテキストの内容を素早く閲覧するのに便利です。
9. キーワード抽出: 単一の記事または記事の集合について、記事の中心的なアイデアを表す複数の単語またはフレーズを抽出でき、精緻な読み取り、意味論的なクエリ、および迅速なマッチングに使用できます。
10. ドキュメントの重複排除: ファイルコレクションまたはデータベース内に同じまたは類似した内容のレコードがあるかどうかを迅速かつ正確に判断し、すべての重複レコードを同時に見つけることができます。
11. HTML テキスト抽出: ナビゲーション Web ページを自動的に削除し、Web ページ内のナビゲーションや広告などの HTML タグと邪魔なテキストを削除し、貴重なテキスト コンテンツを返します。大規模なインターネット情報の前処理や分析に適しています。
12. 自動エンコード認識と変換: コンテンツのエンコードを自動的に識別し、エンコードを GBK エンコードに均一に変換します。
ほとんどの場合、テキストマイニングのデータセットは非常に大きく成長し続けるため、これらのデータを1台のマシンに保存して計算することは不可能です。したがって、コンピュータクラスタ上でテキストマイニングタスクを並行して実行するには、並列実行可能なテキストマイニングアルゴリズムを研究する必要があります。これは明らかに、クラウド コンピューティングと、それ自体が成長分野でもあるデータ集約型コンピューティングのニーズを組み合わせたものです。
以上がNlpir Parser の 12 の機能検索およびマイニング インテリジェント プラットフォームの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。