ホームページ  >  記事  >  データマイニングの基本的な手順は何ですか

データマイニングの基本的な手順は何ですか

王林
王林オリジナル
2021-05-10 15:36:2632882ブラウズ

データ マイニングの基本手順は次のとおりです: 1. 問題を定義する; 2. データ マイニング ライブラリを確立する; 3. データを分析する; 4. データを準備する; 5. モデルを構築する; 6. モデルを評価するモデル; 7. 実装します。

データマイニングの基本的な手順は何ですか

#この記事の動作環境: Windows10 システム、Thinkpad t480 コンピューター。

具体的な手順は次のとおりです:

1. 問題の定義

知識の発見を始める前の最初で最も重要な要件は、データとビジネスの問題を理解することです。自分の目標、つまり何をしたいのかを明確に定義する必要があります。例えば、メールの利用率を向上させたい場合、「ユーザーの利用率を高める」か、「1ユーザーの利用価値を高める」か、この2つの課題を解決するために確立されたモデルはほぼ次のとおりです。全く違うので、決断が必要です。

2. データ マイニング ライブラリの確立

データ マイニング ライブラリの確立には、データ収集、データの説明、選択、データ品質評価とデータ クリーニング、マージと統合、構築の手順が含まれます。メタデータ 、データ マイニング ライブラリのロード、およびデータ マイニング ライブラリの保守を行います。

3. データの分析

分析の目的は、予測出力に最も大きな影響を与えるデータ フィールドを見つけて、エクスポート フィールドを定義するかどうかを決定することです。データ セットに数百または数千のフィールドが含まれている場合、データの参照と分析は非常に時間がかかり、面倒な作業になります。この場合、優れたインターフェイスと強力な機能を備えたツール ソフトウェアを選択する必要があります。これらのタスクを完了します。

4. データの準備

これは、モデルを構築する前のデータ準備の最後のステップです。このステップは、変数の選択、レコードの選択、新しい変数の作成、変数の変換の 4 つの部分に分けることができます。

5. モデルの構築

モデルの構築は反復的なプロセスです。直面しているビジネス上の問題に対してどのモデルが最も役立つかを判断するには、さまざまなモデルを慎重に検討する必要があります。まずデータの一部を使用してモデルを構築し、次に残りのデータを使用して結果のモデルをテストおよび検証します。テスト セットはモデルの特性の影響を受ける可能性があり、モデルの精度を検証するには独立したデータ セットが必要になるため、検証セットと呼ばれる 3 番目のデータ セットが存在する場合があります。データ マイニング モデルのトレーニングとテストでは、データを少なくとも 2 つの部分 (1 つはモデルのトレーニング用、もう 1 つはモデルのテスト用) に分割する必要があります。

6. 評価モデル

モデルを構築した後は、得られた結果を評価し、モデルの価値を説明する必要があります。テスト セットから得られる精度は、モデルの構築に使用されるデータに対してのみ意味を持ちます。実際のアプリケーションでは、エラーの種類とそれに起因する関連コストをさらに理解する必要があります。経験上、有効なモデルが必ずしも正しいモデルであるとは限らないことが証明されています。この直接の理由は、モデル構築に暗黙的に含まれるさまざまな仮定にあるため、現実世界でモデルを直接テストすることが重要です。最初は小さな領域に塗布し、テストデータを取得し、満足してから広い領域に拡張します。

7. 実装

モデルを確立して検証した後、それを使用する主な方法は 2 つあります。 1 つ目はアナリストにリファレンスを提供すること、もう 1 つはこのモデルをさまざまなデータセットに適用することです。

無料の学習ビデオ共有: プログラミング入門

以上がデータマイニングの基本的な手順は何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。