ホームページ  >  記事  >  バックエンド開発  >  パンダを使用して効率的なデータ クリーニング手順を学習する

パンダを使用して効率的なデータ クリーニング手順を学習する

PHPz
PHPzオリジナル
2024-01-24 09:50:061273ブラウズ

パンダを使用して効率的なデータ クリーニング手順を学習する

#すぐに始めましょう!データ クリーニングに Pandas を使用する方法

はじめに:

データの急速な成長と継続的な蓄積により、データ クリーニングはデータ分析プロセスにおいて無視できない部分になりました。 Pandas は、Python で一般的に使用されるデータ分析ツール ライブラリです。効率的で柔軟なデータ構造を提供し、データのクリーニングをより簡単かつ迅速に行います。この記事では、Pandas を使用したデータ クリーニングの一般的な方法と、対応するコード例をいくつか紹介します。

1. Pandas ライブラリのインポートとデータの読み込み

まず、Pandas ライブラリをインポートする必要があります。インポートする前に、Pandas ライブラリが正しくインストールされていることを確認する必要があります。次のコマンドを使用してインストールできます:

pip install pandas

インストールが完了したら、次のコマンドを使用して Pandas ライブラリをインポートできます:

import pandas as pd

Pandas ライブラリをインポートした後、読み込みを開始できますデータ。 Pandas は、CSV、Excel、SQL データベースなどを含む複数の形式でのデータのロードをサポートしています。ここではCSVファイルの読み込みを例に説明します。ロードする CSV ファイルの名前が「data.csv」であると仮定すると、次のコードを使用してロードできます。

data = pd.read_csv('data.csv')

ロードが完了したら、次の方法でデータの最初の数行を表示できます。データが正常にロードされたことを確認するために、データのヘッダー情報を出力します。

print(data.head())

2. 欠損値の処理

データ クリーニング プロセスでは、欠損値の処理が一般的なタスクです。 。 Pandas は、欠損値の削除、欠損値の埋め込みなど、欠損値を処理するさまざまな方法を提供します。一般的に使用される方法の一部を次に示します。

  1. 欠損値の削除

    欠損値の割合が小さく、データ分析全体にほとんど影響を与えない場合は、次のことを選択できます。欠損値の行または列を削除します。次のコードを使用して、欠損値のある行を削除できます:

    data = data.dropna(axis=0)  # 删除含有缺失值的行

    列を削除する場合は、

    axis=0axis=1 に変更します。

  2. 欠損値を埋める

    欠損値を削除できない場合は、欠損値を埋めることを選択できます。 Pandas は、充填操作を実行するための
    fillna 関数を提供します。次のコード例では、欠損値を 0 で埋めています。

    data = data.fillna(0)  # 将缺失值填充为0

    実際のニーズに応じて、適切な埋め込み値を選択できます。

3. 重複値の処理

欠損値に加えて、重複値も対処が必要な一般的な問題です。 Pandas は、重複値の検索、重複値の削除など、重複値を処理するさまざまなメソッドを提供します。一般的に使用される方法は次のとおりです。

  1. 重複値の検索


    duplicated 関数を使用すると、データ内に重複値が存在するかどうかを確認できます。 。次のコード例は、重複した値を含む行を返します。

    duplicated_rows = data[data.duplicated()]
    print(duplicated_rows)

  2. 重複を削除


    drop_duplicates 関数を使用すると、重複した値を行から削除できます。データ。次のコード例では、データ内の重複値を削除します。

    data = data.drop_duplicates()

    実際のニーズに応じて、最初の重複値や最後の重複値などを保持することを選択できます。

4. 外れ値の処理

データ分析において、外れ値の処理は非常に重要なステップです。 Pandas は、外れ値の検索、外れ値の置換など、外れ値を処理するさまざまな方法を提供します。一般的に使用される方法をいくつか示します。

  1. 外れ値の検索

    比較演算子を使用すると、データ内の外れ値を見つけることができます。次のコード例は、指定されたしきい値より大きい外れ​​値を返します。

    outliers = data[data['column_name'] > threshold]
    print(outliers)

    実際のニーズに基づいて、適切な比較演算子としきい値を選択できます。

  2. 異常値の置換


    replace 関数を使用すると、データ内の異常値を置換できます。次のコード例では、異常値を指定された値に置き換えます。

    data = data.replace(outliers, replacement)

    実際のニーズに基づいて、適切な置換値を選択できます。

結論:

この記事では、データ クリーニングに Pandas を使用する一般的な方法をいくつか紹介し、対応するコード例を示します。ただし、データ クリーニングは複雑なプロセスであり、状況によってはさらに多くの処理手順が必要になる場合があります。この記事が、読者がすぐにデータ クリーニングを開始し、Pandas を使用して、データ分析の効率と精度を向上させるのに役立つことを願っています。

以上がパンダを使用して効率的なデータ クリーニング手順を学習するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。