ホームページ  >  記事  >  データマイニングとは何ですか?

データマイニングとは何ですか?

青灯夜游
青灯夜游オリジナル
2020-07-16 11:54:148857ブラウズ

データマイニングとは、アルゴリズムを通じて大量のデータに隠された情報を検索するプロセスを指します。データ マイニングは通常、コンピューター サイエンスに関連しており、統計、オンライン分析処理、インテリジェンス検索、機械学習、エキスパート システム (過去の経験則に依存)、パターン認識などの多くの手法を使用して、大規模な隠された情報を検索するという目標を達成します。データ量。

データマイニングとは何ですか?

データ マイニングは、人工知能とデータベース研究の分野でホットな問題です。いわゆるデータ マイニングとは、隠された情報やこれまで知られていなかった情報をデータから明らかにすることを指します。データベース内の大量のデータ、および潜在的に貴重な情報。

データマイニングは意思決定支援プロセスであり、主に人工知能、機械学習、パターン認識、統計、データベース、視覚化技術などに基づいています。高度に自動化された方法で企業データを分析し、帰納的推論を行います。それらから潜在的なパターンを明らかにし、意思決定者が市場戦略を調整し、リスクを軽減し、正しい意思決定を行えるようにします。

知識発見プロセスは、①データの準備、②データマイニング、③結果の表現と解釈の 3 つの段階で構成されます。データ マイニングは、ユーザーまたはナレッジ ベースと対話できます。

データ マイニング オブジェクト

データのタイプは、構造化、半構造化、さらには異種の場合もあります。知識を発見する方法には、数学的、非数学的、または帰納的があります。最終的に発見された知識は、情報管理、クエリの最適化、意思決定支援、データ自体の保守に使用できます。 [4]

データ マイニングの対象となるのは、あらゆる種類のデータ ソースです。構造化データを含むデータ ソースであるリレーショナル データベースの場合もあれば、データ ウェアハウス、テキスト、マルチメディア データ、空間データ、時系列データ、および半構造データを含むデータ ソースである Web データの場合もあります。構造化データ、さらには異種データ。 [4]

知識を発見する方法は、数値的、非数値的、または帰納的です。最終的に発見された知識は、情報管理、クエリの最適化、意思決定支援、データ自体の保守に使用できます。

データ マイニングの手順

データ マイニングを実装する前に、まず、実行する手順、各ステップで何を行うか、達成するために必要な目標を決定します。適切な計画があれば、データ マイニングを秩序ある方法で実装し、成功を収めることができます。多くのソフトウェア ベンダーやデータ マイニング コンサルティング会社は、ユーザーがデータ マイニング作業を段階的にガイドできるように、いくつかのデータ マイニング プロセス モデルを提供しています。たとえば、SPSS の 5A や SAS の SEMMA などです。

データ マイニング プロセス モデルのステップには、主に、問題の定義、データ マイニング ライブラリの確立、データの分析、データの準備、モデルの構築、モデルの評価、および実装が含まれます。各ステップの具体的な内容を詳しく見てみましょう:

(1) 問題を定義します。知識の発見を始める前の最初の最も重要な要件は、データとビジネスの問題を理解することです。自分の目標、つまり何をしたいのかを明確に定義する必要があります。例えば、メールの利用率を向上させたい場合、「ユーザーの利用率を高める」か、「1ユーザーの利用価値を高める」か、この2つの課題を解決するために確立されたモデルはほぼ次のとおりです。全く違うので、決断が必要です。

(2) データマイニングライブラリを確立します。データ マイニング ライブラリの構築には、データ収集、データの説明、選択、データ品質評価とデータ クリーニング、マージと統合、メタデータの構築、データ マイニング ライブラリのロード、およびデータ マイニング ライブラリの保守の手順が含まれます。

(3) データを分析します。分析の目的は、予測出力に最も大きな影響を与えるデータ フィールドを見つけて、エクスポート フィールドを定義する必要があるかどうかを判断することです。データ セットに数百または数千のフィールドが含まれている場合、データの参照と分析は非常に時間がかかり、面倒な作業になります。この場合、優れたインターフェイスと強力な機能を備えたツール ソフトウェアを選択する必要があります。これらのタスクを完了します。

(4) データを準備します。これは、モデルを構築する前のデータ準備の最後のステップです。このステップは、変数の選択、レコードの選択、新しい変数の作成、変数の変換の 4 つの部分に分けることができます。

(5)モデルを構築します。モデルの構築は反復的なプロセスです。直面しているビジネス上の問題に対してどのモデルが最も役立つかを判断するには、さまざまなモデルを慎重に検討する必要があります。まずデータの一部を使用してモデルを構築し、次に残りのデータを使用して結果のモデルをテストおよび検証します。テスト セットはモデルの特性の影響を受ける可能性があり、モデルの精度を検証するには独立したデータ セットが必要になるため、検証セットと呼ばれる 3 番目のデータ セットが存在する場合があります。データ マイニング モデルのトレーニングとテストでは、データを少なくとも 2 つの部分 (1 つはモデルのトレーニング用、もう 1 つはモデルのテスト用) に分割する必要があります。

(6) 評価モデル。モデルを確立した後は、得られた結果を評価し、モデルの価値を説明する必要があります。テスト セットから得られる精度は、モデルの構築に使用されるデータに対してのみ意味を持ちます。実際のアプリケーションでは、エラーの種類とそれに起因する関連コストをさらに理解する必要があります。経験上、有効なモデルが必ずしも正しいモデルであるとは限らないことが証明されています。この直接の理由は、モデル構築に暗黙的に含まれるさまざまな仮定にあるため、現実世界でモデルを直接テストすることが重要です。最初は小さな領域に塗布し、テストデータを取得し、満足してから広い領域に拡張します。

(7)実装。モデルを構築して検証したら、主に 2 つの方法で使用できます。 1 つ目はアナリストにリファレンスを提供すること、もう 1 つはこのモデルをさまざまなデータセットに適用することです。

関連知識の詳細については、PHP 中国語 Web サイト をご覧ください。

以上がデータマイニングとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。