>백엔드 개발 >파이썬 튜토리얼 >Groupby 및 diff()를 사용하여 Pandas DataFrames의 시간 기반 차이를 계산하는 방법은 무엇입니까?

Groupby 및 diff()를 사용하여 Pandas DataFrames의 시간 기반 차이를 계산하는 방법은 무엇입니까?

Barbara Streisand
Barbara Streisand원래의
2024-10-30 07:45:27525검색

How to Calculate Time-Based Differences in Pandas DataFrames Using Groupby and diff()?

Pandas Groupby 시간 기반 차이에 대한 다중 필드

데이터 분석 영역에서 시간에 따른 변화를 비교하는 것은 중요한 작업입니다. 다용도 Python 라이브러리인 Pandas는 이러한 작업을 처리하기 위한 강력한 기능을 제공합니다. 여러 범주형 필드와 시간으로 구성된 데이터를 처리할 때 groupby.diff() 메서드는 매우 유용합니다.

제공된 것과 같은 DataFrame을 고려해 보세요. 각 사이트는 국가와 날짜에 따라 다양한 점수를 갖습니다. 목표는 각 사이트/국가 조합에 대한 점수의 1/3/5일 차이를 계산하는 것입니다.

문제 해결

이를 달성하기 위해 우리는 다음 단계:

  1. DataFrame 정렬: sort_values()를 사용하여 사이트, 국가 및 날짜별로 일관된 순서로 데이터를 정렬합니다.
  2. 사이트 및 국가별 그룹화: groupby()를 활용하여 사이트 및 국가 필드를 기반으로 그룹을 만듭니다.
  3. 차이 계산: 각 그룹 내에 diff()를 적용하여 점수를 계산합니다. 연속 행의 차이입니다.
<code class="python">df = df.sort_values(by=['site', 'country', 'date'])
df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)</code>

출력:

결과는 계산된 점수 차이를 보여주는 DataFrame입니다.

date site country score diff
2018-01-01 fb es 100 0.0
2018-01-02 fb gb 100 0.0
2018-01-01 fb us 50 0.0
2018-01-02 fb us 55 5.0
2018-01-03 fb us 100 45.0
2018-01-01 google ch 50 0.0
2018-01-02 google ch 10 -40.0
2018-01-01 google us 100 0.0
2018-01-02 google us 70 -30.0
2018-01-03 google us 60 -10.0

고급 정렬

"fb"보다 "google"을 우선시하는 등 임의의 순서가 필요한 경우 범주형 열을 생성하고 정렬 매개변수로 할당할 수 있습니다. 이렇게 하면 지정된 순서가 유지됩니다.

위 내용은 Groupby 및 diff()를 사용하여 Pandas DataFrames의 시간 기반 차이를 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.