首頁 >後端開發 >Python教學 >python 操作 excel 系列之:資料清洗

python 操作 excel 系列之:資料清洗

coldplay.xixi
coldplay.xixi轉載
2021-03-02 10:20:004009瀏覽

python 操作 excel 系列之:資料清洗

python 在對 excel 操作的同時,前面文章說了資料的讀取、插入、簡單分析,還有一個很重要的點就是資料清洗。那什麼叫資料清洗,說白了就是去除資料文字中的垃圾值,例如:存在的空值、多餘的空格、資料格式等等的處理。

相關免費學習推薦:python影片教學

1,匯入python 函式庫、讀取excel資料
# 导入 pandas 库import pandas as pd# read_excel() 读取 excel 数据# DataFrame() 将读取到的数据转换为 DataFrame 数据df = pd.DataFrame(pd.read_excel('data.xlsx'))
2,資料清洗(去除空值)
# dropna() 函数去除 df 数据表中存在空值的所有行df.dropna(how='any')# mean() 函数计算 age 字段所在列的平均值age_pre = df['age'].mean()# 使用 fillna() 函数对存在的空值进行填充,将 age_pre 的值填充到字段为空的值内面df['age'].fillna(age_pre)
3,資料清洗(清除欄位中的空格)
# 清除字段的空格df['name'] = df['name'].map(str.strip)
4,資料清洗(對某個列進行重新命名)
# rename() 函数对列进行重命名df.rename(columns={'name': 'name_new'})
5,資料清洗(清除某一列中的重複值)
# 从前往后查找某个列中的重复值,如果存在则清除后面所出现的重复值df['name'].drop_duplicates()# 从后往前查找某个列中的重复值,如果存在则清除前面所出现的重复值df['city'].drop_duplicates(keep='last')# 两种正好是按照相反的清除顺序
6,資料清洗(資料值替換)
# 将某一列中的具体值进行替换df['name'].replace('laow', 'lwsbc')

#相關免費學習推薦:python教學(影片)

以上是python 操作 excel 系列之:資料清洗的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:csdn.net。如有侵權,請聯絡admin@php.cn刪除