プロのデータ クリーニング スキル: pandas の応用実践
はじめに:
ビッグ データ時代の到来により、データの収集と処理は次のようなものになりました。さまざまな業界で重要な役割を担っています。ただし、元のデータには、欠損値、外れ値、重複値など、さまざまな問題が存在することがよくあります。データを正確かつ効果的に分析するには、生データをクリーンアップする必要があります。データ クリーニングのプロセスにおいて、pandas は豊富な機能と柔軟な操作を提供する強力な Python ライブラリであり、データ セットを効率的に処理するのに役立ちます。この記事では、いくつかの一般的なデータ クリーニング手法を紹介し、それを特定のコード例と組み合わせて、パンダのアプリケーションの実践を示します。
1. データのロード
まず、外部ファイルからデータをロードする必要があります。 pandas は、CSV、Excel、SQL などの複数のデータ形式をサポートしています。以下は、CSV ファイルをロードするためのサンプル コードです。
import pandas as pd # 读取CSV文件 data = pd.read_csv("data.csv")
2. データの表示
データをクリーンアップする前に、データの全体的な状況を理解するために、まずデータの全体的な状況を表示する必要があります。データセットの構造と特性。 pandas は、head()
、tail()
、info()
、describe()## など、データを表示するためのさまざまなメソッドを提供します。 # 待って。以下はデータを表示するためのサンプル コードです:
# 查看前几行数据 print(data.head()) # 查看后几行数据 print(data.tail()) # 查看数据的详细信息 print(data.info()) # 查看数据的统计描述 print(data.describe())3. 欠損値の処理欠損値は、データ クリーニング プロセスでよく発生する問題の 1 つです。 pandas には、欠損値を処理するためのメソッドがいくつか用意されています。一般的に使用されるメソッドとサンプル コードをいくつか示します。
# 删除包含缺失值的行 data.dropna(axis=0, inplace=True) # 删除包含缺失值的列 data.dropna(axis=1, inplace=True)
# 用指定值填充缺失值 data.fillna(value=0, inplace=True) # 用平均值填充缺失值 data.fillna(data.mean(), inplace=True)
# 删除大于或小于指定阈值的异常值 data = data[(data["column"] >= threshold1) & (data["column"] <= threshold2)]
# 将大于或小于指定阈值的异常值替换为指定值 data["column"] = data["column"].apply(lambda x: replace_value if x > threshold else x)
# 删除完全重复的行 data.drop_duplicates(inplace=True) # 删除指定列中的重复值 data.drop_duplicates(subset=["column"], inplace=True)
# 查找完全重复的行 duplicates = data[data.duplicated()] # 查找指定列中的重复值 duplicates = data[data.duplicated(subset=["column"])]
# 将列的数据类型转换为整型 data["column"] = data["column"].astype(int) # 将列的数据类型转换为日期时间类型 data["column"] = pd.to_datetime(data["column"]) # 将列的数据类型转换为分类类型 data["column"] = data["column"].astype("category")結論:この記事では、一般的に使用されるデータ クリーニング手法をいくつか紹介し、具体的なコード例を使用してパンダのアプリケーションの実践を示します。実際のデータ クリーニング作業では、特定のニーズとデータの特性に基づいて適切な方法を選択できます。この記事が読者の皆さんのデータ クリーニングの学習と実践に役立つことを願っています。
以上がpandas を使用してプロレベルのデータ クリーニングを行う方法を学ぶの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。