ホームページ >バックエンド開発 >Python チュートリアル >pandas データ クリーニングのマスターになる: 入門から習得まで
入門から習得まで: pandas のデータ クリーニング手法をマスターする
はじめに:
データ サイエンスと機械学習の分野では、データ クリーニングは重要な要素です。データ分析の重要なステップの説明。データをクリーニングすることで、データセット内のエラーを修正し、欠損値を埋め、外れ値を処理し、データの一貫性と正確性を確保することができます。 Pandas は、Python で最も一般的に使用されるデータ分析ツールの 1 つであり、データ クリーニング プロセスをより簡潔かつ効率的に行うための一連の強力な機能とメソッドを提供します。この記事では、パンダのデータ クリーニング方法を段階的に紹介し、読者がデータ クリーニングにパンダを使用する方法をすぐに習得できるように、具体的なコード例を示します。
read_csv()
関数を使用して CSV ファイルを読み取ることも、read_excel()
関数を使用して Excel ファイルを読み取ることもできます。以下は、CSV ファイルを読み取るためのコード例です。 import pandas as pd # 读取CSV文件 df = pd.read_csv('data.csv')
df.head()
: データ セットの最初の数行を表示します。デフォルトは最初の 5 行です。 df.tail()
: データ セットの最後の数行を表示します。デフォルトは最後の 5 行です。 df.info()
: 各列のデータ型や null 以外の値の数など、データ セットの基本情報を表示します。 df.describe()
: 各列の平均、標準偏差、最小値、最大値などを含む、データセットの統計的な概要を生成します。 df.shape
: データ セットの形状、つまり行と列の数を表示します。 これらのコマンドは、データ セットの構造と内容をすばやく理解し、その後のデータ クリーニングの準備に役立ちます。
dropna()
関数を使用します。値または列。 fillna()
関数を使用して欠損値を埋めます。欠損値を 0 で埋めるには、fillna(0)
などの定数埋め込みを使用できます。また、fillna(df.mean())# などの平均値または中央値埋め込みも使用できます。 ## 欠損値を埋めるための値には、各列の平均値が入力されます。
# 删除包含缺失值的行 df.dropna(inplace=True) # 将缺失值填充为0 df.fillna(0, inplace=True)
関数を使用して重複値を削除できます。この関数は、最初に出現した値を保持し、後続の重複値を削除します。
# 删除重复值 df.drop_duplicates(inplace=True)
関数を使用して、外れ値を適切な値に置き換えます。たとえば、
df['column'].replace(100, df['column'].mean()) を使用すると、列の値 100 を列の平均値に置き換えることができます。
# 删除异常值 df = df[df['column'] < 100] # 将异常值替换为均值 df['column'].replace(100, df['column'].mean(), inplace=True)
関数を使用して正しい型に変換できます。たとえば、
df['column'] = df['column'].astype(float) を使用して、列のデータ型を浮動小数点型に変換できます。
# 将某一列的数据类型转换为浮点型 df['column'] = df['column'].astype(float)
この関数は列名の名前を変更します。
# 对列名进行重命名 df.rename(columns={'old_name': 'new_name'}, inplace=True)
関数を使用して並べ替えることができます。
# 按照某一列的值对数据集进行升序排序 df.sort_values('column', ascending=True, inplace=True)結論:
この記事では、パンダでの一般的なデータ クリーニング方法をいくつか紹介し、具体的なコード例を示します。これらの方法を習得することで、リーダーはデータ セット内の欠損値、重複値、外れ値をより適切に処理し、データ型の変換、列の名前変更、データの並べ替えを実行できるようになります。これらのコード例だけで、パンダのデータ クリーニング方法を入門から習熟までマスターし、実際のデータ分析プロジェクトに適用することができます。この記事が、読者がデータ クリーニングに pandas ライブラリをよりよく理解し、使用できるようになれば幸いです。
以上がpandas データ クリーニングのマスターになる: 入門から習得までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。