Python의 데이터 랭글링 기술

PHPz원래의: 2023-06-10 18:28:381340검색

Python은 데이터 과학 분야에서 널리 사용되는 고급 프로그래밍 언어로 데이터 수집, 정리, 분석 및 시각화에 널리 사용됩니다. 데이터 랭글링은 데이터 처리의 핵심 기술입니다. 이 기사에서는 독자가 데이터를 더 잘 처리하고 분석하는 데 도움이 되는 Python의 몇 가지 일반적인 데이터 랭글링 기술을 소개합니다.

데이터 유형 변환

데이터 정규화 과정에서 다양한 데이터 유형을 변환해야 하는 경우가 많습니다. 일반적인 데이터 유형에는 문자열, 정수, 부동 소수점 숫자 및 부울 값이 포함됩니다. Python은 int(), float(), str(), bool() 등과 같은 강력한 유형 변환 함수를 제공합니다. 이를 통해 하나의 데이터 유형을 다음과 같은 다른 데이터 유형으로 변환할 수 있습니다.

# 将字符串转换成整数
age_str = '18'
age_int = int(age_str)

# 将整数转换成字符串
age_int = 18
age_str = str(age_int)

# 将浮点数转换成整数
height_float = 1.75
height_int = int(height_float)

# 将整数转换成布尔值
num = 0
is_zero = bool(num)     # False

Data deduplication

대량의 데이터를 처리할 때 중복된 데이터가 발생할 수 있으므로 데이터 중복 제거 기술을 사용해야 합니다. Python에서 set() 함수를 사용하면 목록에서 중복 요소를 빠르게 제거할 수 있습니다. 예:

# 去除列表中的重复元素
lst = [1, 2, 3, 2, 4, 1]
lst_unique = list(set(lst))
print(lst_unique)       # [1, 2, 3, 4]

데이터 채우기

데이터 정규화 과정에서 때로는 더 나은 후속 작업을 위해 누락된 값을 채워야 하는 경우가 있습니다. 처리. Python의 fillna() 함수를 사용하면 데이터를 편리하게 채울 수 있습니다. 예:

# 对缺失值进行填充
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'age': [18, None, 21],
                   'gender': ['F', 'M', None]})

df_fill = df.fillna(value={'age': df['age'].mean(),
                           'gender': 'U'})
print(df_fill)

출력 결과는 다음과 같습니다.

       name   age gender
0     Alice  18.0      F
1       Bob  19.5      M
2  Charlie  21.0      U

Data reshaping

데이터 정규화 과정에서 데이터 재구성이 필요할 수 있습니다. 후속 처리를 더 좋게 만듭니다. Python에서 피봇() 함수를 사용하면 데이터의 모양을 쉽게 바꿀 수 있습니다. 예:

# 数据重塑
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'gender': ['F', 'M', 'M'],
                   'subject': ['Math', 'Math', 'English'],
                   'score': [90, 87, 88]})

df_res = df.pivot(index='name', columns='subject', values='score')
print(df_res)

출력 결과는 다음과 같습니다.

subject  English  Math
name                  
Alice        NaN  90.0
Bob          NaN  87.0
Charlie     88.0   NaN

Data merge

실제 작업에서 데이터는 일반적으로 다른 테이블에 저장되며 병합. Python에서 merge() 함수를 사용하면 데이터 병합을 용이하게 할 수 있습니다. 예:

# 数据合并
import pandas as pd

df1 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                    'age': [18, 19, 21],
                    'gender': ['F', 'M', 'M']})
df2 = pd.DataFrame({'name': ['Alice', 'Bob'],
                    'score': [90, 87]})

df_merge = pd.merge(df1, df2, on='name')
print(df_merge)

출력 결과는 다음과 같습니다.

       name  age gender  score
0     Alice   18      F     90
1       Bob   19      M     87

요약하면 Python의 데이터 변형 기술에는 데이터 유형 변환, 데이터 중복 제거, 데이터 채우기, 데이터 재구성이 포함됩니다. 데이터 병합 등 이러한 기술은 독자가 데이터를 더 잘 처리 및 분석하고 데이터 처리의 효율성과 정확성을 향상시키는 데 도움이 될 수 있습니다.

위 내용은 Python의 데이터 랭글링 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이전 기사：Python의 설명적 요인 분석 알고리즘에 대한 자세한 설명다음 기사：Python의 설명적 요인 분석 알고리즘에 대한 자세한 설명