ホームページ  >  記事  >  バックエンド開発  >  pandas を使用してプロレベルのデータ クリーニングを行う方法を学ぶ

pandas を使用してプロレベルのデータ クリーニングを行う方法を学ぶ

WBOY
WBOYオリジナル
2024-01-24 08:10:07467ブラウズ

pandas を使用してプロレベルのデータ クリーニングを行う方法を学ぶ

プロのデータ クリーニング スキル: pandas の応用実践

はじめに:

ビッグ データ時代の到来により、データの収集と処理は次のようなものになりました。さまざまな業界で重要な役割を担っています。ただし、元のデータには、欠損値、外れ値、重複値など、さまざまな問題が存在することがよくあります。データを正確かつ効果的に分析するには、生データをクリーンアップする必要があります。データ クリーニングのプロセスにおいて、pandas は豊富な機能と柔軟な操作を提供する強力な Python ライブラリであり、データ セットを効率的に処理するのに役立ちます。この記事では、いくつかの一般的なデータ クリーニング手法を紹介し、それを特定のコード例と組み合わせて、パンダのアプリケーションの実践を示します。

1. データのロード

まず、外部ファイルからデータをロードする必要があります。 pandas は、CSV、Excel、SQL などの複数のデータ形式をサポートしています。以下は、CSV ファイルをロードするためのサンプル コードです。

import pandas as pd

# 读取CSV文件
data = pd.read_csv("data.csv")

2. データの表示

データをクリーンアップする前に、データの全体的な状況を理解するために、まずデータの全体的な状況を表示する必要があります。データセットの構造と特性。 pandas は、head()tail()info()describe()## など、データを表示するためのさまざまなメソッドを提供します。 # 待って。以下はデータを表示するためのサンプル コードです:

# 查看前几行数据
print(data.head())

# 查看后几行数据
print(data.tail())

# 查看数据的详细信息
print(data.info())

# 查看数据的统计描述
print(data.describe())

3. 欠損値の処理

欠損値は、データ クリーニング プロセスでよく発生する問題の 1 つです。 pandas には、欠損値を処理するためのメソッドがいくつか用意されています。一般的に使用されるメソッドとサンプル コードをいくつか示します。

    欠損値の削除:
  1. # 删除包含缺失值的行
    data.dropna(axis=0, inplace=True)
    
    # 删除包含缺失值的列
    data.dropna(axis=1, inplace=True)
    欠損値の入力:
  1. # 用指定值填充缺失值
    data.fillna(value=0, inplace=True)
    
    # 用平均值填充缺失值
    data.fillna(data.mean(), inplace=True)
4. 異常値の扱い

異常値は解析結果に重大な影響を与える可能性があるため、対処する必要があります。 pandas には、外れ値を処理するためのメソッドがいくつか用意されています。一般的に使用されるメソッドとサンプル コードをいくつか示します。

    異常値の削除:
  1. # 删除大于或小于指定阈值的异常值
    data = data[(data["column"] >= threshold1) & (data["column"] <= threshold2)]
    異常値の置換:
  1. # 将大于或小于指定阈值的异常值替换为指定值
    data["column"] = data["column"].apply(lambda x: replace_value if x > threshold else x)
5.重複した値の処理

重複した値は不正確なデータ分析結果につながる可能性があるため、処理する必要があります。 pandas は、重複した値を処理する複数の方法を提供します。一般的に使用されるメソッドとサンプル コードをいくつか示します。

    重複値の削除:
  1. # 删除完全重复的行
    data.drop_duplicates(inplace=True)
    
    # 删除指定列中的重复值
    data.drop_duplicates(subset=["column"], inplace=True)
    重複値の検索:
  1. # 查找完全重复的行
    duplicates = data[data.duplicated()]
    
    # 查找指定列中的重复值
    duplicates = data[data.duplicated(subset=["column"])]
6. データ型の変換

データ クリーニング プロセスでは、その後の分析のためにデータ型を変換する必要があることがよくあります。 Pandas は、データ型変換のためのさまざまなメソッドを提供します。一般的に使用されるメソッドとサンプル コードを次に示します。

# 将列的数据类型转换为整型
data["column"] = data["column"].astype(int)

# 将列的数据类型转换为日期时间类型
data["column"] = pd.to_datetime(data["column"])

# 将列的数据类型转换为分类类型
data["column"] = data["column"].astype("category")

結論:

この記事では、一般的に使用されるデータ クリーニング手法をいくつか紹介し、具体的なコード例を使用してパンダのアプリケーションの実践を示します。実際のデータ クリーニング作業では、特定のニーズとデータの特性に基づいて適切な方法を選択できます。この記事が読者の皆さんのデータ クリーニングの学習と実践に役立つことを願っています。

以上がpandas を使用してプロレベルのデータ クリーニングを行う方法を学ぶの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。