ホームページ >バックエンド開発 >Python チュートリアル >Python操作Excelシリーズ:データクリーニング
# 前回の記事ではExcelを操作しながら、データの読み込み、挿入、簡単な分析についてお話しましたが、もう一つ重要なポイントがデータのクリーニングです。では、データ クリーニングとは何ですか? 率直に言うと、既存の null 値、冗長なスペース、データ形式など、データ テキスト内のジャンク値を削除することを意味します。
関連する無料学習の推奨事項: Python ビデオ チュートリアル
# 导入 pandas 库import pandas as pd# read_excel() 读取 excel 数据# DataFrame() 将读取到的数据转换为 DataFrame 数据df = pd.DataFrame(pd.read_excel('data.xlsx'))
# dropna() 函数去除 df 数据表中存在空值的所有行df.dropna(how='any')# mean() 函数计算 age 字段所在列的平均值age_pre = df['age'].mean()# 使用 fillna() 函数对存在的空值进行填充,将 age_pre 的值填充到字段为空的值内面df['age'].fillna(age_pre)
# 清除字段的空格df['name'] = df['name'].map(str.strip)
# rename() 函数对列进行重命名df.rename(columns={'name': 'name_new'})
# 从前往后查找某个列中的重复值,如果存在则清除后面所出现的重复值df['name'].drop_duplicates()# 从后往前查找某个列中的重复值,如果存在则清除前面所出现的重复值df['city'].drop_duplicates(keep='last')# 两种正好是按照相反的清除顺序
# 将某一列中的具体值进行替换df['name'].replace('laow', 'lwsbc')
関連無料学習の推奨事項: Python チュートリアル(ビデオ)
以上がPython操作Excelシリーズ:データクリーニングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。