ホームページ >バックエンド開発 >Python チュートリアル >pandas データ クリーニングのマスターになる: 入門から習得まで

pandas データ クリーニングのマスターになる: 入門から習得まで

PHPz
PHPzオリジナル
2024-01-24 09:29:06934ブラウズ

pandas データ クリーニングのマスターになる: 入門から習得まで

入門から習得まで: pandas のデータ クリーニング手法をマスターする

はじめに:
データ サイエンスと機械学習の分野では、データ クリーニングは重要な要素です。データ分析の重要なステップの説明。データをクリーニングすることで、データセット内のエラーを修正し、欠損値を埋め、外れ値を処理し、データの一貫性と正確性を確保することができます。 Pandas は、Python で最も一般的に使用されるデータ分析ツールの 1 つであり、データ クリーニング プロセスをより簡潔かつ効率的に行うための一連の強力な機能とメソッドを提供します。この記事では、パンダのデータ クリーニング方法を段階的に紹介し、読者がデータ クリーニングにパンダを使用する方法をすぐに習得できるように、具体的なコード例を示します。

  1. パンダ ライブラリとデータ セットのインポート
    まず、パンダ ライブラリをインポートし、クリーンアップするデータ セットを読み取る必要があります。 pandas の read_csv() 関数を使用して CSV ファイルを読み取ることも、read_excel() 関数を使用して Excel ファイルを読み取ることもできます。以下は、CSV ファイルを読み取るためのコード例です。
import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')
  1. データ セットの概要の表示
    データ クリーニングを開始する前に、いくつかの基本的なコマンドを使用して、データ セットの概要情報を表示できます。データセット。一般的に使用されるコマンドの一部を以下に示します。
  • df.head(): データ セットの最初の数行を表示します。デフォルトは最初の 5 行です。
  • df.tail(): データ セットの最後の数行を表示します。デフォルトは最後の 5 行です。
  • df.info(): 各列のデータ型や null 以外の値の数など、データ セットの基本情報を表示します。
  • df.describe(): 各列の平均、標準偏差、最小値、最大値などを含む、データセットの統計的な概要を生成します。
  • df.shape: データ セットの形状、つまり行と列の数を表示します。

これらのコマンドは、データ セットの構造と内容をすばやく理解し、その後のデータ クリーニングの準備に役立ちます。

  1. 欠損値の処理
    実際のデータセットでは、いくつかの欠損値が頻繁に発生します。欠損値に対処する方法は数多くありますが、一般的な方法のいくつかを以下に示します。
  • 欠損値の削除: 欠損値を含む行を削除するには、dropna() 関数を使用します。値または列。
  • 欠損値を埋める: fillna() 関数を使用して欠損値を埋めます。欠損値を 0 で埋めるには、fillna(0) などの定数埋め込みを使用できます。また、fillna(df.mean())# などの平均値または中央値埋め込みも使用できます。 ## 欠損値を埋めるための値には、各列の平均値が入力されます。
以下は欠損値を処理するコード例です:

# 删除包含缺失值的行
df.dropna(inplace=True)

# 将缺失值填充为0
df.fillna(0, inplace=True)

    重複値の処理
  1. 欠損値に加えて、重複値も存在する可能性があります。データセット内。重複値の処理はデータ クリーニングの重要な手順の 1 つであり、
    drop_duplicates() 関数を使用して重複値を削除できます。この関数は、最初に出現した値を保持し、後続の重複値を削除します。
以下は、重複値を処理するためのコード例です。

# 删除重复值
df.drop_duplicates(inplace=True)

    外れ値の処理
  1. データ セットには、いくつかの外れ値が存在する場合があります。異常値の処理は次の方法で実行できます。
    異常値の削除: ブール値インデックスを使用して異常値を削除します。たとえば、
  • df = df[df['column'] を使用すると、列内の 100 を超える外れ値を削除できます。
  • 外れ値を置換:
  • replace() 関数を使用して、外れ値を適切な値に置き換えます。たとえば、df['column'].replace(100, df['column'].mean()) を使用すると、列の値 100 を列の平均値に置き換えることができます。
以下は外れ値を処理するコード例です:

# 删除异常值
df = df[df['column'] < 100]

# 将异常值替换为均值
df['column'].replace(100, df['column'].mean(), inplace=True)

    データ型変換
  1. データセットの一部の列のデータ型が正しくない場合があります。データ型は、
    astype() 関数を使用して正しい型に変換できます。たとえば、df['column'] = df['column'].astype(float) を使用して、列のデータ型を浮動小数点型に変換できます。
以下はデータ型変換のコード例です:

# 将某一列的数据类型转换为浮点型
df['column'] = df['column'].astype(float)

    データ列の名前変更
  1. データセット内の列名が要件を満たしていない場合
    rename()この関数は列名の名前を変更します。
以下は、データ列の名前を変更するコード例です:

# 对列名进行重命名
df.rename(columns={'old_name': 'new_name'}, inplace=True)

    データの並べ替え
  1. 場合によっては、データ セットの値に従ってデータ セットを並べ替える必要があります。とあるコラム。データセットは、
    sort_values() 関数を使用して並べ替えることができます。
以下はデータ並べ替えのコード例です:

# 按照某一列的值对数据集进行升序排序
df.sort_values('column', ascending=True, inplace=True)

結論:

この記事では、パンダでの一般的なデータ クリーニング方法をいくつか紹介し、具体的なコード例を示します。これらの方法を習得することで、リーダーはデータ セット内の欠損値、重複値、外れ値をより適切に処理し、データ型の変換、列の名前変更、データの並べ替えを実行できるようになります。これらのコード例だけで、パンダのデータ クリーニング方法を入門から習熟までマスターし、実際のデータ分析プロジェクトに適用することができます。この記事が、読者がデータ クリーニングに pandas ライブラリをよりよく理解し、使用できるようになれば幸いです。

以上がpandas データ クリーニングのマスターになる: 入門から習得までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。