집 >백엔드 개발 >파이썬 튜토리얼 >Python 작업 Excel 시리즈: 데이터 정리

Python 작업 Excel 시리즈: 데이터 정리

coldplay.xixi앞으로: 2021-03-02 10:20:004198검색

이전 글에서는 파이썬이 엑셀에서 동작하는 동안 데이터의 읽기, 삽입, 간단한 분석에 대해 다루었습니다. 또 하나 매우 중요한 점은 데이터 정리입니다. 그렇다면 데이터 정리란 무엇입니까? 직설적으로 말하면 데이터 텍스트에서 기존 null 값, 중복 공백, 데이터 형식 등과 같은 정크 값을 제거하는 것을 의미합니다.

관련 무료 학습 권장사항: python 비디오 튜토리얼

1, Python 라이브러리 가져오기, Excel 데이터 읽기

# 导入 pandas 库import pandas as pd# read_excel() 读取 excel 数据# DataFrame() 将读取到的数据转换为 DataFrame 数据df = pd.DataFrame(pd.read_excel('data.xlsx'))

2, 데이터 정리(널 값 제거)

# dropna() 函数去除 df 数据表中存在空值的所有行df.dropna(how='any')# mean() 函数计算 age 字段所在列的平均值age_pre = df['age'].mean()# 使用 fillna() 函数对存在的空值进行填充，将 age_pre 的值填充到字段为空的值内面df['age'].fillna(age_pre)

3, 데이터 정리(공백 지우기) 현장에서)

# 清除字段的空格df['name'] = df['name'].map(str.strip)

4, 데이터 정리(열 이름 바꾸기)

# rename() 函数对列进行重命名df.rename(columns={'name': 'name_new'})

5, 데이터 정리(열의 중복 값 제거)

# 从前往后查找某个列中的重复值，如果存在则清除后面所出现的重复值df['name'].drop_duplicates()# 从后往前查找某个列中的重复值，如果存在则清除前面所出现的重复值df['city'].drop_duplicates(keep='last')# 两种正好是按照相反的清除顺序

6, 데이터 정리(데이터 값 대체)

# 将某一列中的具体值进行替换df['name'].replace('laow', 'lwsbc')

관련 무료 학습 권장사항: python tutorial(동영상)

위 내용은 Python 작업 Excel 시리즈: 데이터 정리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python excel

성명：

이 기사는 csdn.net에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：파이썬에서 문자열인지 확인하는 방법다음 기사：파이썬에서 문자열인지 확인하는 방법