ホームページ >バックエンド開発 >Python チュートリアル >Python でデータのクリーニングと処理を行う方法

Python でデータのクリーニングと処理を行う方法

PHPzオリジナル: 2023-10-20 17:55:501236ブラウズ

Python でデータのクリーニングと処理を実行する方法

データのクリーニングと処理は、データ分析とマイニングのプロセスにおいて非常に重要なステップです。データのクリーニングと処理は、データの問題、欠落、または異常を発見し、その後のデータ分析とモデリングの準備に役立ちます。この記事では、データのクリーニングと処理に Python を使用する方法を紹介し、具体的なコード例を示します。

必要なライブラリのインポート

まず、pandas や numpy などの必要なライブラリをインポートする必要があります。

import pandas as pd
import numpy as np

データのロード

クリーンアップして処理するデータセットをロードする必要があります。 CSV ファイルは、pandas ライブラリの read_csv() 関数を使用してロードできます。

data = pd.read_csv('data.csv')

データの表示

データのクリーンアップと処理を開始する前に、まずデータの形状、列などのデータの基本的な状況を確認します。最初の数行は待機します。

print(data.shape)        # 打印数据的形状
print(data.columns)      # 打印列名
print(data.head())       # 打印前几行数据

欠損値の処理

次に、データ内の欠損値に対処する必要があります。欠損値は、その後のデータ分析やモデリングの結果に影響を与える可能性があります。欠損値を処理するには、欠損値を含む行や列を削除する、欠損値を埋めるなど、さまざまな方法があります。

欠損値を含む行または列を削除する:

data.dropna()                    # 删除包含缺失值的行
data.dropna(axis=1)              # 删除包含缺失值的列

欠損値を埋める:

data.fillna(0)                   # 用0填充缺失值
data.fillna(data.mean())         # 用均值填充缺失值

重複値を処理する

データ内重複した値も分析結果に影響を与える可能性があるため、重複した値を処理する必要があります。重複する値は、pandas ライブラリの drop_duplicates() 関数を使用して削除できます。

data.drop_duplicates()           # 删除重复值

外れ値の処理

外れ値とは、データセット内の他の観測値と大きく異なる値であり、分析結果に偏りが生じる可能性があります。さまざまな統計手法を使用して、外れ値を検出して処理できます。

たとえば、外れ値を検出して処理するには、標準偏差の 3 倍の方法を使用します。

mean = data['column'].mean()                           
std = data['column'].std()                            

data = data[~((data['column'] - mean) > 3 * std)]

データ変換

場合によっては、いくつかの処理を実行する必要があります。データの変換により、より適切な分析とモデリングが可能になります。たとえば、対数変換や正規化などです。

対数変換:

data['column'] = np.log(data['column'])

正規化:

data['column'] = (data['column'] - data['column'].min()) / (data['column'].max() - data['column'].min())

クリーンアップされたデータを保存します

最後に、クリーンアップされ処理されたデータを保存します。後で使用できるように新しい CSV ファイルに保存されます。

data.to_csv('cleaned_data.csv', index=False)

概要:

この記事では、Python でデータクリーニングと処理を実行する方法の具体的な手順を紹介し、対応するコード例を示します。データのクリーニングと処理は、データ分析とマイニングのプロセスにおける重要なリンクであり、その後の分析とモデリングの精度と信頼性を向上させることができます。これらのテクニックを習得することで、データをより適切に処理および分析できるようになります。

以上がPython でデータのクリーニングと処理を行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python numpy pandas 数据分析

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python のプロセスプールとスレッドプールに適用できるシナリオと実装原則は何ですか?次の記事：Python のプロセスプールとスレッドプールに適用できるシナリオと実装原則は何ですか?

続きを見る