データ クリーニング、データ統合、データ変換、データ削減。各主要なステップにはいくつかの小さな細分化があります。もちろん、これら 4 つの主要な手順は、データの前処理を行うときに必ずしも実行されるわけではありません。
1. データ クリーニング
データ クリーニングは、名前が示すとおり、「黒」データを「白」データ、つまり「ダーティ」データに変換します。データを「クリーン」にするためには、ダーティ データは形式もコンテンツもダーティです。 形式が汚い (欠損値や特殊記号など)、内容が汚い (外れ値など)。1. 欠損値
欠損値には、欠損値の特定と欠損値の処理が含まれます。 R では、関数 is.na は欠損値を識別するために使用され、関数 complete.cases はサンプル データが完全であるかどうかを識別するために使用されます。 欠損値を処理するために一般的に使用される方法は、削除、置換、補間です。- 削除方法: 削除方法は、異なる削除角度に応じた観測サンプルと変数の削除、観測サンプルの削除 (行削除法)、および na.omit 関数に分けられます。 R は欠損値を含む行を削除できます。 これは、情報の完全性と引き換えにサンプル サイズを減らすことに相当します。ただし、欠損変数が大きく、研究目的への影響がほとんどない場合は、ステートメント mydata[,- を削除することを検討できます。 p] を変数 R に格納します。 mydata は削除されたデータセットの名前を表し、p は削除された変数の列数を表し、- は削除を表します。
- 置換メソッド: 置換メソッドは、その名前が示すように、欠損値を置換します。変数ごとに異なる置換ルールがあります。欠損値が存在する変数は数値型です。 . この変数の下で他の数値を使用します。欠損値は平均値で置き換えられます。変数が数値以外の変数の場合は、変数の下で他の観測値の中央値または最頻値が使用されます。
- 補間方法: 補間方法は回帰補間と多重補間に分けられます。 回帰内挿とは、内挿された変数を従属変数 y として扱い、他の変数を独立変数として扱い、回帰モデルを使用して近似し、R の lm 回帰関数を使用して欠損値を内挿することを指します。 ; 多重代入とは、欠損値を含むデータ セットから完全なデータ セットを生成することを指します。欠損値のランダム サンプルを生成するために複数回実行されます。R のマウス パッケージは多重代入を実行できます。
2. 外れ値
欠損値などの外れ値には、外れ値の特定と処理が含まれます。- 外れ値の特定は、通常、単変量散布図または箱ひげ図で処理されます。R では、dotchart は単変量散布図を描画する関数であり、boxplot 関数は箱を描画します。プロット. ; グラフでは、正常範囲から遠く離れた点は外れ値とみなされます。
- 外れ値の処理には、外れ値を含む観測値の削除 (直接削除。サンプルが少ない場合、直接削除するとサンプル サイズが不足し、変数の分布が変化します)、それらを欠損値として扱うことが含まれます。値 (欠損値を埋めるために既存の情報を使用します)、平均補正 (外れ値を補正するために前後 2 つの観測値の平均を使用します)、およびそれを処理しません。外れ値を処理するときは、まず外れ値の発生の考えられる理由を検討し、次に外れ値を破棄する必要があるかどうかを判断する必要があります。
2. データ統合
いわゆるデータ統合とは、複数のデータ ソースを 1 つのデータ ストレージにマージすることです。 , もちろん、分析対象のデータがもともとデータストアにある場合は、データ統合(オールインワン)する必要はありません。 データ統合の実装では、キーワードに基づいて 2 つのデータ フレームを結合し、R のマージ関数を使用します。ステートメントは merge (dataframe1, dataframe2, by="keyword") で、デフォルトは昇順です。 データ統合中に次の問題が発生する可能性があります:- 同じ名前でも意味が異なります (データ ソース A の属性の名前と名前)。データ ソース B の属性の同じですが、表現されているエンティティが異なるため、キーワードとして使用できません。
- には同義の名前、つまり 2 つの属性の名前があります。データ ソースは異なりますが、それが表すエンティティは同じです。キーワードとして使用できます。
- データ統合により、データの冗長性が生じることがよくあります。同じ属性が複数回出現する場合や、重複する可能性があります。
#3データ変換
データ変換とは、ソフトウェアや分析理論のニーズを満たすために適切な形式に変換することです。
1. 単純関数変換
単純関数変換は、正規分布のないデータを正規分布のあるデータに変換するために使用されます。一般的に使用されるものには、平方、平方根、対数などがあります。 、違いなど。たとえば、時系列では、非定常シーケンスを定常シーケンスに変換するために、データに対して対数演算または差分演算が実行されることがよくあります。
2. 標準化
正規化とは、身長や体重の違い、単位や範囲の違いなどを直接比較するなど、変数の寸法の影響を取り除くことです。違いがあるため、これを直接比較することはできません。
最小-最大正規化: 分散標準化とも呼ばれ、データを線形変換し、その範囲を [0,1]
Zero-平均正規化: 標準偏差標準化とも呼ばれ、処理されたデータの平均値は 0 に等しく、標準偏差は 1 です
- ##十進位取り正規化: 属性値の小数点以下の桁を移動します、属性値は [-1,1]
3 にマッピングされます。連続属性の離散化
連続属性変数をカテゴリカルに変換します。属性、つまり連続属性の離散化、特に一部の分類アルゴリズムでは、ID3 アルゴリズムなど、データがカテゴリ属性であることが必要です。
一般的に使用される離散化方法には、次のようなものがあります。
等幅法: 周波数を作成するのと同様に、属性の値の範囲を同じ幅の間隔に分割します。分布テーブル;
等頻度法: 各間隔に同じレコードを配置;
一次元クラスタリング: 2 つのステップ、最初に連続 属性の値はクラスタリング アルゴリズムを使用してクラスタ化され、クラスタ化されたセットは連続値にマージされ、同じラベルでマークされます。
4. データ削減
データ削減とは、マイニング タスクとデータの内容を理解することを指します。基本的には、検出ターゲットに依存するデータの有用な特徴を見つけてデータのサイズを削減し、それによってデータの元の外観を可能な限り維持しながらデータ量を最小限に抑えます。
データキュレーションにより、無効なデータや誤ったデータがモデリングに及ぼす影響を軽減し、時間を短縮し、データを保存するスペースを削減できます。
1. 属性削減
属性削減とは、最小の属性サブセットを見つけて、元のデータの確率分布に近いサブセットの確率分布を決定することです。 。
属性のマージ: いくつかの古い属性を新しい属性にマージします。
ステップごとに順方向に選択します: 空の属性セットから開始し、それぞれその後、最適な属性が選択できなくなるか制約値が満たされるまで、現在の最適な属性が元の属性セットから選択され、現在のサブセットに追加されます。
ステップバイステップの選択: from one 空の属性セットから開始し、最悪の属性が選択できなくなるか制約値が満たされるまで、現在の最悪の属性が元の属性セットから選択され、現在のサブセットから削除されるたびに、
デシジョン ツリー誘導: このデシジョン ツリーに表示されない属性は、より適切な属性サブセットを取得するために初期セットから削除されます。- 主成分分析: 使用する属性を減らします。説明する変数 元のデータのほとんどの変数 (相関性の高い変数を独立変数または無相関変数に変換します)。
線形回帰やノンパラメトリック手法などのパラメータを使用して、データ量を削減します。重回帰、ヒストグラム、サンプリングなどのパラメーターなしの方法。
関連知識の詳細については、
FAQ