データマイニングは、大量のデータから事前に知られていない有用な情報を抽出するプロセスです。データマイニングの目標は、過去の行動データに基づいて将来の行動を予測する意思決定モデルを構築することです。
#データマイニングとは、アルゴリズムを使用して大量のデータに隠された情報を検索するプロセスを指します。
データ マイニングは通常、コンピューター サイエンスに関連しており、統計、オンライン分析処理、インテリジェンス検索、機械学習、エキスパート システム (過去の経験則に基づく)、パターン認識などの多くの方法を通じて上記の目標を達成します。
データ マイニングは、データベースにおける知識発見 (KDD) に不可欠な部分であり、KDD は生データを有用な情報に変換するプロセス全体です。このプロセスには、一連の変換ステップが含まれます。データの前処理からデータへの変換まで、データマイニング結果の後処理。
データ マイニングの起源
さまざまな分野の研究者が集まり、さまざまなデータ型を処理できるツールの開発を開始しました。より効率的でスケーラブルなツール。これらの研究は、研究者が以前に使用していた方法論とアルゴリズムに基づいており、最終的にはデータ マイニングの分野に到達します。
特に、データマイニングでは、(1) 統計からのサンプリング、推定、仮説検証、(2) 人工知能、パターン認識、機械学習の検索アルゴリズムのモデリング技術と学習の分野のアイデアが活用されています。理論。
データマイニングは、最適化、進化的計算、情報理論、信号処理、視覚化、情報検索など、他の分野のアイデアも急速に取り入れています。
他のいくつかの領域も重要な補助的な役割を果たします。データベース システムは、効率的なストレージ、インデックス作成、クエリ処理のサポートを提供します。高性能 (並列) コンピューティングから派生したテクノロジは、多くの場合、大量のデータ セットを処理する際に重要になります。分散テクノロジーは、大量のデータの処理にも役立ちますが、データを一元的に処理できない場合にはさらに重要になります。
KDD(Knowledge Discovery from Database)
データクリーニング
ノイズの除去一貫性のないデータ;
データ統合
複数のデータ ソースを組み合わせることができます;
データ選択
分析タスクに関連するデータをデータベースから抽出する;
データ変換
集計または集計操作を通じてデータをマイニングに適したデータに変換および統合する フォーム;
#基本的な手順、インテリジェントな方法を使用してデータ パターンを抽出する;
##パターン評価知識表現
ビジネス理解
ビジネスの観点からプロジェクトの目標と要件を理解し、理論分析を通じてこの理解をデータ マイニングの運用上の問題に変換し、目標を達成するための予備計画を策定します。この段階では、主にさまざまなモデリング手法を選択して適用します。同時に、最適な値が得られるようにパラメータが調整されます。通常、同じタイプのデータ マイニング問題に対して複数のモデリング手法が存在します。一部のテクノロジーにはデータ フォームに特別な要件があり、多くの場合、データ準備段階に戻る必要があります。
モデルの展開とリリースの前に、技術レベルから始めて、モデルの効果を判断し、モデル構築の各ステップを検討するだけでなく、ビジネス目標に基づいて実際のビジネス シナリオにおけるモデルの実用性を評価する必要があります。この段階の主な目的は、十分に考慮されていない重要なビジネス上の問題があるかどうかを判断することです。
モデルの展開後完了すると、(顧客)現在の背景と目標の完了状況に基づいて、パッケージは業務システムの使用ニーズを満たします。
#データ マイニング タスク
一般に、データ マイニング タスクは次の 2 つのカテゴリに分類されます。これらのタスクの目標は、他の属性の値に基づいて特定の属性の値を予測することです。一般に、予測対象の属性は目的変数または従属変数と呼ばれ、予測に使用される属性は説明変数または独立変数と呼ばれます。
。目標は、データ内の根底にあるつながりを要約するパターン (相関関係、傾向、クラスター、軌跡、異常) を導き出すことです。記述的データ マイニング タスクは本質的に探索的なものが多く、結果を検証して解釈するために後処理技術が必要になることがよくあります。
ターゲット変数の関数を説明することによる、ターゲット変数のモデルの構築が含まれます。変数。 予測モデリング タスクには、離散ターゲット変数の予測に使用される分類と、連続ターゲット変数の予測に使用される回帰の 2 種類があります。
たとえば、Web ユーザーがオンライン書店で本を購入するかどうかを予測することは、ターゲット変数がバイナリであるため分類タスクになりますが、株価の将来の価格を予測することは、価格が連続的であるため回帰タスクとなります。値の属性。
両方のタスクの目標は、ターゲット変数の予測値と実際の値の間の誤差を最小限に抑えるようにモデルをトレーニングすることです。予測モデリングは、製品のプロモーションに対する顧客の反応を判断したり、地球の生態系の混乱を予測したり、検査結果に基づいて患者が病気に罹患しているかどうかを判断したりするために使用できます。
アソシエーション分析 (アソシエーション分析)は、データ内の強い相関特徴を説明するパターンを発見するために使用されます。 発見されたパターンは通常、含意ルールまたは特徴のサブセットの形式で表現されます。検索空間のサイズは指数関数的であるため、相関分析の目標は、最も興味深いパターンを効率的な方法で抽出することです。関連分析の応用には、関連する機能を持つゲノムの発見、ユーザーが一緒に訪問する Web ページの特定、地球の気候システムのさまざまな要素間のつながりの理解などが含まれます。
クラスター分析(クラスター分析)は、同じクラスターに属する観測値が、異なるクラスターに属する観測値よりも互いに類似するように、密接に関連する観測値のグループを見つけることを目的としています。できるだけ似たもの。クラスタリングを使用すると、関連する顧客のグループ化、地球の気候に大きな影響を与える海洋領域の特定、データの圧縮などを行うことができます。
異常検出 (異常検出)このタスクは、他のデータと特性が大きく異なる観測値を特定することです。 このような観測値は、異常または外れ値と呼ばれます。異常検出アルゴリズムの目標は、実際の異常を発見し、正常なオブジェクトを異常として誤ってラベル付けすることを回避することです。言い換えれば、優れた異常検出器は、高い検出率と低い誤警報率を備えていなければなりません。
異常検出のアプリケーションには、詐欺、サイバー攻撃、病気の異常なパターン、生態系の混乱などの検出が含まれます。
関連知識の詳細については、
PHP 中国語 Web サイト以上がデータマイニングとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。