>  기사  >  백엔드 개발  >  Python에서 데이터 집계 및 그룹화를 수행하는 방법

Python에서 데이터 집계 및 그룹화를 수행하는 방법

WBOY
WBOY원래의
2023-10-18 11:03:461058검색

Python에서 데이터 집계 및 그룹화를 수행하는 방법

Python에서 데이터를 집계하고 그룹화하는 방법

데이터 분석 및 처리 과정에서 데이터를 집계하고 그룹화해야 하는 경우가 많습니다. Python은 데이터 집계 및 그룹화 작업을 용이하게 하는 다양하고 강력한 라이브러리와 도구를 제공합니다. 이 기사에서는 Python에서 데이터 집계 및 그룹화를 위해 pandas 라이브러리를 사용하는 방법을 소개하고 구체적인 코드 예제를 제공합니다.

1. 데이터 집계
데이터 집계는 여러 데이터를 하나 또는 소수의 데이터로 병합하는 작업입니다. Python에서는 데이터 집계를 위해 pandas 라이브러리의 groupby() 함수를 사용할 수 있습니다.

샘플 코드는 다음과 같습니다.

import pandas as pd

# 创建一个示例数据集
data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'],
                     'B': ['red', 'orange', 'yellow', 'green', 'yellow'],
                     'C': [1, 2, 3, 4, 5]})

# 按照A列进行聚合,计算C列的总和
result = data.groupby('A')['C'].sum()

print(result)

위 코드를 실행하면 출력 결과는 다음과 같습니다.

A
apple     5
banana    8
orange    2
Name: C, dtype: int64

그 중 groupby() 함수는 'A' 열에 따라 Aggregation을 지정하고, sum()은 함수는 'C' 열의 합계를 계산합니다.

2. 데이터 그룹핑
데이터 그룹핑은 특정 기준에 따라 데이터를 그룹화하는 작업입니다. 마찬가지로 Python에서는 데이터 그룹화를 위해 pandas 라이브러리의 groupby() 함수를 사용할 수 있습니다.

샘플 코드는 다음과 같습니다.

import pandas as pd

# 创建一个示例数据集
data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'],
                     'B': ['red', 'orange', 'yellow', 'green', 'yellow'],
                     'C': [1, 2, 3, 4, 5]})

# 按照A列进行分组
grouped_data = data.groupby('A')

# 遍历每个组
for name, group in grouped_data:
    print(name)
    print(group)
    print()

위 코드를 실행하면 출력 결과는 다음과 같습니다.

apple
       A      B  C
0  apple    red  1
3  apple  green  4

banana
        A       B  C
2  banana  yellow  3
4  banana  yellow  5

orange
        A       B  C
1  orange  orange  2

groupby() 함수를 사용하여 'A' 열에 따라 데이터를 그룹화하고 각 그룹을 반복하여 산출. 보시다시피 'A' 열의 다양한 값에 따라 데이터가 성공적으로 그룹화되어 출력됩니다.

3. 데이터 집계와 그룹화의 결합 적용
실제 데이터 처리에서는 집계와 그룹화를 결합해야 하는 경우가 많습니다. 예를 들어 판매 데이터 세트에서 다양한 제품 범주별로 그룹화하고 각 범주의 총 ​​판매량을 계산할 수 있습니다.

샘플 코드는 다음과 같습니다.

import pandas as pd

# 创建一个示例数据集
data = pd.DataFrame({'Category': ['Fruit', 'Vegetable', 'Fruit', 'Vegetable', 'Fruit'],
                     'Product': ['Apple', 'Carrot', 'Orange', 'Broccoli', 'Banana'],
                     'Sales': [100, 200, 150, 250, 120]})

# 按照Category列进行分组,并计算Sales列的总和
result = data.groupby('Category')['Sales'].sum()

print(result)

위 코드를 실행하면 출력 결과는 다음과 같습니다.

Category
Fruit        370
Vegetable    450
Name: Sales, dtype: int64

위 코드에서는 먼저 groupby() 함수를 통해 'Category' 열별로 데이터를 그룹화하고, 그런 다음 sum() 함수를 사용하여 총 매출의 각 범주를 계산합니다.

요약:
이 글에서는 Python에서 데이터 집계 및 그룹화를 위해 pandas 라이브러리를 사용하는 방법을 소개합니다. groupby() 함수는 데이터를 집계하고 그룹화하는 데 사용할 수 있으며, 다른 함수와 결합하여 더 복잡한 작업을 수행할 수 있습니다. 데이터 집계 및 그룹화는 데이터 처리의 중요한 단계이며 데이터 분석 및 통계에 매우 유용합니다. 이 기사가 Python의 데이터 집계 및 그룹화에 관련된 모든 사람에게 도움이 되기를 바랍니다.

위 내용은 Python에서 데이터 집계 및 그룹화를 수행하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.