ホームページ >バックエンド開発 >Python チュートリアル >pandas を使用してプロレベルのデータクリーニングを行う方法を学ぶ

pandas を使用してプロレベルのデータクリーニングを行う方法を学ぶ

WBOYオリジナル: 2024-01-24 08:10:07578ブラウズ

プロのデータクリーニングスキル: pandas の応用実践

はじめに:

ビッグデータ時代の到来により、データの収集と処理は次のようなものになりました。さまざまな業界で重要な役割を担っています。ただし、元のデータには、欠損値、外れ値、重複値など、さまざまな問題が存在することがよくあります。データを正確かつ効果的に分析するには、生データをクリーンアップする必要があります。データクリーニングのプロセスにおいて、pandas は豊富な機能と柔軟な操作を提供する強力な Python ライブラリであり、データセットを効率的に処理するのに役立ちます。この記事では、いくつかの一般的なデータクリーニング手法を紹介し、それを特定のコード例と組み合わせて、パンダのアプリケーションの実践を示します。

1. データのロード

まず、外部ファイルからデータをロードする必要があります。 pandas は、CSV、Excel、SQL などの複数のデータ形式をサポートしています。以下は、CSV ファイルをロードするためのサンプルコードです。

import pandas as pd

# 读取CSV文件
data = pd.read_csv("data.csv")

2. データの表示

データをクリーンアップする前に、データの全体的な状況を理解するために、まずデータの全体的な状況を表示する必要があります。データセットの構造と特性。 pandas は、head()、tail()、info()、describe()## など、データを表示するためのさまざまなメソッドを提供します。＃待って。以下はデータを表示するためのサンプルコードです:

# 查看前几行数据
print(data.head())

# 查看后几行数据
print(data.tail())

# 查看数据的详细信息
print(data.info())

# 查看数据的统计描述
print(data.describe())

3. 欠損値の処理

欠損値は、データクリーニングプロセスでよく発生する問題の 1 つです。 pandas には、欠損値を処理するためのメソッドがいくつか用意されています。一般的に使用されるメソッドとサンプルコードをいくつか示します。

# 删除包含缺失值的行
data.dropna(axis=0, inplace=True)

# 删除包含缺失值的列
data.dropna(axis=1, inplace=True)

# 用指定值填充缺失值
data.fillna(value=0, inplace=True)

# 用平均值填充缺失值
data.fillna(data.mean(), inplace=True)

4. 異常値の扱い

異常値は解析結果に重大な影響を与える可能性があるため、対処する必要があります。 pandas には、外れ値を処理するためのメソッドがいくつか用意されています。一般的に使用されるメソッドとサンプルコードをいくつか示します。

# 删除大于或小于指定阈值的异常值
data = data[(data["column"] >= threshold1) & (data["column"] <= threshold2)]

# 将大于或小于指定阈值的异常值替换为指定值
data["column"] = data["column"].apply(lambda x: replace_value if x > threshold else x)

5.重複した値の処理

重複した値は不正確なデータ分析結果につながる可能性があるため、処理する必要があります。 pandas は、重複した値を処理する複数の方法を提供します。一般的に使用されるメソッドとサンプルコードをいくつか示します。

# 删除完全重复的行
data.drop_duplicates(inplace=True)

# 删除指定列中的重复值
data.drop_duplicates(subset=["column"], inplace=True)

# 查找完全重复的行
duplicates = data[data.duplicated()]

# 查找指定列中的重复值
duplicates = data[data.duplicated(subset=["column"])]

6. データ型の変換

データクリーニングプロセスでは、その後の分析のためにデータ型を変換する必要があることがよくあります。 Pandas は、データ型変換のためのさまざまなメソッドを提供します。一般的に使用されるメソッドとサンプルコードを次に示します。

# 将列的数据类型转换为整型
data["column"] = data["column"].astype(int)

# 将列的数据类型转换为日期时间类型
data["column"] = pd.to_datetime(data["column"])

# 将列的数据类型转换为分类类型
data["column"] = data["column"].astype("category")

結論:

この記事では、一般的に使用されるデータクリーニング手法をいくつか紹介し、具体的なコード例を使用してパンダのアプリケーションの実践を示します。実際のデータクリーニング作業では、特定のニーズとデータの特性に基づいて適切な方法を選択できます。この記事が読者の皆さんのデータクリーニングの学習と実践に役立つことを願っています。

以上がpandas を使用してプロレベルのデータクリーニングを行う方法を学ぶの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python sql pandas 数据类型类型转换数据分析 excel

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Pandas データ分析ツール: 重複テクニックを学習し、データ処理効率を向上させます。次の記事：Pandas データ分析ツール: 重複テクニックを学習し、データ処理効率を向上させます。

続きを見る

pandas を使用してプロレベルのデータ クリーニングを行う方法を学ぶ

関連記事

pandas を使用してプロレベルのデータクリーニングを行う方法を学ぶ