ホームページ >バックエンド開発 >Python チュートリアル >pandas を使用したデータのクリーニングと前処理のテクニックを探索する

pandas を使用したデータのクリーニングと前処理のテクニックを探索する

WBOY
WBOYオリジナル
2024-01-13 12:49:05719ブラウズ

pandas を使用したデータのクリーニングと前処理のテクニックを探索する

データのクリーニングと前処理に pandas を使用する方法について説明します

はじめに:
データ分析と機械学習では、データのクリーニングと前処理が非常に重要です。 。 pandas は Python の強力なデータ処理ライブラリとして、豊富な機能と柔軟な操作を備えており、データの効率的なクリーンアップと前処理に役立ちます。この記事では、一般的に使用されるいくつかの pandas メソッドを検討し、対応するコード例を示します。

1. データの読み取り
まず、データ ファイルを読み取る必要があります。 pandas は、csv、Excel、SQL データベースなど、さまざまな形式のデータ ファイルを読み取るための多くの関数を提供します。 CSV ファイルの読み取りを例に挙げると、read_csv() 関数を使用できます。

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')

2. データの観察
データのクリーニングと前処理を実行する前に、データの全体的な状況を観察する必要があります。 Pandas には、データに関する基本情報をすばやく表示するためのメソッドがいくつか用意されています。

  1. データの最初の数行を表示します。

    df.head()
  2. データの基本的な統計情報を表示します。

    df.describe()
  3. データの列名を表示します。

    df.columns

3. 欠損値の処理
欠損値の処理はデータ クリーニングの重要な手順であり、pandas は欠損値を処理するためのメソッドをいくつか提供しています。

  1. 欠損値を特定します。

    df.isnull()
  2. 欠損値を含む行または列を削除します。

    # 删除包含缺失值的行
    df.dropna(axis=0)
    
    # 删除包含缺失值的列
    df.dropna(axis=1)
  3. 欠損値の埋め込み。

    # 使用指定值填充缺失值
    df.fillna(value)
    
    # 使用均值填充缺失值
    df.fillna(df.mean())

4. 重複値の処理
重複値はデータ分析とモデリングに支障をきたすため、重複値に対処する必要があります。

  1. 重複する値を特定します。

    df.duplicated()
  2. 重複した値を削除します。

    df.drop_duplicates()

5. データ変換
データ変換は前処理の重要な部分であり、pandas はデータ変換のための多くのメソッドを提供します。

  1. #データの並べ替え。

    # 按某一列升序排序
    df.sort_values(by='column_name')
    
    # 按多列升序排序
    df.sort_values(by=['column1', 'column2'])

  2. データの正規化。

    # 使用最小-最大缩放(Min-Max Scaling)
    df_scaled = (df - df.min()) / (df.max() - df.min())

  3. データの離散化。

    # 使用等宽离散化(Equal Width Binning)
    df['bin'] = pd.cut(df['column'], bins=5)

6. 特徴の選択

タスクのニーズに応じて、分析とモデリングに適切な特徴を選択する必要があります。 pandas は、特徴を選択するためのいくつかのメソッドを提供します。

  1. 列ごとに機能を選択します。

    # 根据列名选择特征
    df[['column1', 'column2']]
    
    # 根据列的位置选择特征
    df.iloc[:, 2:4]

  2. 条件に基づいて機能を選択します。

    # 根据条件选择特征
    df[df['column'] > 0]

7. データ マージャー

複数のデータ セットをマージする必要がある場合、pandas が提供するメソッドを使用してマージできます。

  1. 行ごとに結合します。

    df1.append(df2)

  2. 列ごとに結合します。

    pd.concat([df1, df2], axis=1)

8. データの保存

最後に、データの処理が完了したら、処理されたデータをファイルに保存できます。

# 保存到csv文件
df.to_csv('processed_data.csv', index=False)

# 保存到Excel文件
df.to_excel('processed_data.xlsx', index=False)

結論:

この記事では、データの読み取り、データの観察、欠損値の処理、重複値の処理、データ変換、特徴選択、データのマージなど、データのクリーニングと前処理に pandas を使用する一般的な方法をいくつか紹介します。そしてデータの保存。 pandas の強力な機能と柔軟な操作により、データのクリーニングと前処理を効率的に実行し、その後のデータ分析とモデリングのための強固な基盤を築くことができます。実際のアプリケーションでは、学生は特定のニーズに応じて適切なメソッドを選択し、実際のコードと組み合わせて使用​​できます。

以上がpandas を使用したデータのクリーニングと前処理のテクニックを探索するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。