ホームページ  >  記事  >  バックエンド開発  >  Python操作Excelシリーズ:データクリーニング

Python操作Excelシリーズ:データクリーニング

coldplay.xixi
coldplay.xixi転載
2021-03-02 10:20:003920ブラウズ

Python操作Excelシリーズ:データクリーニング

# 前回の記事ではExcelを操作しながら、データの読み込み、挿入、簡単な分析についてお話しましたが、もう一つ重要なポイントがデータのクリーニングです。では、データ クリーニングとは何ですか? 率直に言うと、既存の null 値、冗長なスペース、データ形式など、データ テキスト内のジャンク値を削除することを意味します。

関連する無料学習の推奨事項: Python ビデオ チュートリアル

1、Python ライブラリをインポートし、Excel を読み取ります。データ
# 导入 pandas 库import pandas as pd# read_excel() 读取 excel 数据# DataFrame() 将读取到的数据转换为 DataFrame 数据df = pd.DataFrame(pd.read_excel('data.xlsx'))
2、データ クリーニング (NULL 値の削除)
# dropna() 函数去除 df 数据表中存在空值的所有行df.dropna(how='any')# mean() 函数计算 age 字段所在列的平均值age_pre = df['age'].mean()# 使用 fillna() 函数对存在的空值进行填充,将 age_pre 的值填充到字段为空的值内面df['age'].fillna(age_pre)
3、データ クリーニング (フィールド内のスペースの削除)
# 清除字段的空格df['name'] = df['name'].map(str.strip)
4、データ クリーニング (特定の列の削除) rename)
# rename() 函数对列进行重命名df.rename(columns={'name': 'name_new'})
5, データ クリーニング (列内の重複値の削除)
# 从前往后查找某个列中的重复值,如果存在则清除后面所出现的重复值df['name'].drop_duplicates()# 从后往前查找某个列中的重复值,如果存在则清除前面所出现的重复值df['city'].drop_duplicates(keep='last')# 两种正好是按照相反的清除顺序
6, データ クリーニング (データ値の置換)
# 将某一列中的具体值进行替换df['name'].replace('laow', 'lwsbc')

関連無料学習の推奨事項: Python チュートリアル(ビデオ)

以上がPython操作Excelシリーズ:データクリーニングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はcsdn.netで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。