ホームページ >バックエンド開発 >Python チュートリアル >Python操作Excelシリーズ：データクリーニング

Python操作Excelシリーズ：データクリーニング

coldplay.xixi転載: 2021-03-02 10:20:004103ブラウズ

# 前回の記事ではExcelを操作しながら、データの読み込み、挿入、簡単な分析についてお話しましたが、もう一つ重要なポイントがデータのクリーニングです。では、データクリーニングとは何ですか? 率直に言うと、既存の null 値、冗長なスペース、データ形式など、データテキスト内のジャンク値を削除することを意味します。

関連する無料学習の推奨事項: Python ビデオチュートリアル

1、Python ライブラリをインポートし、Excel を読み取ります。データ

# 导入 pandas 库import pandas as pd# read_excel() 读取 excel 数据# DataFrame() 将读取到的数据转换为 DataFrame 数据df = pd.DataFrame(pd.read_excel('data.xlsx'))

2、データクリーニング (NULL 値の削除)

# dropna() 函数去除 df 数据表中存在空值的所有行df.dropna(how='any')# mean() 函数计算 age 字段所在列的平均值age_pre = df['age'].mean()# 使用 fillna() 函数对存在的空值进行填充，将 age_pre 的值填充到字段为空的值内面df['age'].fillna(age_pre)

3、データクリーニング (フィールド内のスペースの削除)

# 清除字段的空格df['name'] = df['name'].map(str.strip)

4、データクリーニング (特定の列の削除) rename)

# rename() 函数对列进行重命名df.rename(columns={'name': 'name_new'})

5, データクリーニング (列内の重複値の削除)

# 从前往后查找某个列中的重复值，如果存在则清除后面所出现的重复值df['name'].drop_duplicates()# 从后往前查找某个列中的重复值，如果存在则清除前面所出现的重复值df['city'].drop_duplicates(keep='last')# 两种正好是按照相反的清除顺序

6, データクリーニング (データ値の置換)

# 将某一列中的具体值进行替换df['name'].replace('laow', 'lwsbc')

関連無料学習の推奨事項: Python チュートリアル(ビデオ)

以上がPython操作Excelシリーズ：データクリーニングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python excel

声明：

この記事はcsdn.netで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Pythonで文字列かどうかを判断する方法次の記事：Pythonで文字列かどうかを判断する方法

続きを見る

Python操作Excelシリーズ：データクリーニング

1、Python ライブラリをインポートし、Excel を読み取ります。データ

2、データ クリーニング (NULL 値の削除)

3、データ クリーニング (フィールド内のスペースの削除)

4、データ クリーニング (特定の列の削除) rename)

5, データ クリーニング (列内の重複値の削除)

6, データ クリーニング (データ値の置換)

関連記事

2、データクリーニング (NULL 値の削除)

3、データクリーニング (フィールド内のスペースの削除)

4、データクリーニング (特定の列の削除) rename)

5, データクリーニング (列内の重複値の削除)

6, データクリーニング (データ値の置換)