>  기사  >  백엔드 개발  >  Python의 데이터 랭글링 기술

Python의 데이터 랭글링 기술

PHPz
PHPz원래의
2023-06-10 18:28:381234검색

Python은 데이터 과학 분야에서 널리 사용되는 고급 프로그래밍 언어로 데이터 수집, 정리, 분석 및 시각화에 널리 사용됩니다. 데이터 랭글링은 데이터 처리의 핵심 기술입니다. 이 기사에서는 독자가 데이터를 더 잘 처리하고 분석하는 데 도움이 되는 Python의 몇 가지 일반적인 데이터 랭글링 기술을 소개합니다.

  1. 데이터 유형 변환

데이터 정규화 과정에서 다양한 데이터 유형을 변환해야 하는 경우가 많습니다. 일반적인 데이터 유형에는 문자열, 정수, 부동 소수점 숫자 및 부울 값이 포함됩니다. Python은 int(), float(), str(), bool() 등과 같은 강력한 유형 변환 함수를 제공합니다. 이를 통해 하나의 데이터 유형을 다음과 같은 다른 데이터 유형으로 변환할 수 있습니다.

# 将字符串转换成整数
age_str = '18'
age_int = int(age_str)

# 将整数转换成字符串
age_int = 18
age_str = str(age_int)

# 将浮点数转换成整数
height_float = 1.75
height_int = int(height_float)

# 将整数转换成布尔值
num = 0
is_zero = bool(num)     # False
  1. Data deduplication

대량의 데이터를 처리할 때 중복된 데이터가 발생할 수 있으므로 데이터 중복 제거 기술을 사용해야 합니다. Python에서 set() 함수를 사용하면 목록에서 중복 요소를 빠르게 제거할 수 있습니다. 예:

# 去除列表中的重复元素
lst = [1, 2, 3, 2, 4, 1]
lst_unique = list(set(lst))
print(lst_unique)       # [1, 2, 3, 4]
  1. 데이터 채우기

데이터 정규화 과정에서 때로는 더 나은 후속 작업을 위해 누락된 값을 채워야 하는 경우가 있습니다. 처리. Python의 fillna() 함수를 사용하면 데이터를 편리하게 채울 수 있습니다. 예:

# 对缺失值进行填充
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'age': [18, None, 21],
                   'gender': ['F', 'M', None]})

df_fill = df.fillna(value={'age': df['age'].mean(),
                           'gender': 'U'})
print(df_fill)

출력 결과는 다음과 같습니다.

       name   age gender
0     Alice  18.0      F
1       Bob  19.5      M
2  Charlie  21.0      U
  1. Data reshaping

데이터 정규화 과정에서 데이터 재구성이 필요할 수 있습니다. 후속 처리를 더 좋게 만듭니다. Python에서 피봇() 함수를 사용하면 데이터의 모양을 쉽게 바꿀 수 있습니다. 예:

# 数据重塑
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'gender': ['F', 'M', 'M'],
                   'subject': ['Math', 'Math', 'English'],
                   'score': [90, 87, 88]})

df_res = df.pivot(index='name', columns='subject', values='score')
print(df_res)

출력 결과는 다음과 같습니다.

subject  English  Math
name                  
Alice        NaN  90.0
Bob          NaN  87.0
Charlie     88.0   NaN
  1. Data merge

실제 작업에서 데이터는 일반적으로 다른 테이블에 저장되며 병합. Python에서 merge() 함수를 사용하면 데이터 병합을 용이하게 할 수 있습니다. 예:

# 数据合并
import pandas as pd

df1 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                    'age': [18, 19, 21],
                    'gender': ['F', 'M', 'M']})
df2 = pd.DataFrame({'name': ['Alice', 'Bob'],
                    'score': [90, 87]})

df_merge = pd.merge(df1, df2, on='name')
print(df_merge)

출력 결과는 다음과 같습니다.

       name  age gender  score
0     Alice   18      F     90
1       Bob   19      M     87

요약하면 Python의 데이터 변형 기술에는 데이터 유형 변환, 데이터 중복 제거, 데이터 채우기, 데이터 재구성이 포함됩니다. 데이터 병합 등 이러한 기술은 독자가 데이터를 더 잘 처리 및 분석하고 데이터 처리의 효율성과 정확성을 향상시키는 데 도움이 될 수 있습니다.

위 내용은 Python의 데이터 랭글링 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.