Pandas Groupby 시간 기반 차이에 대한 다중 필드
데이터 분석 영역에서 시간에 따른 변화를 비교하는 것은 중요한 작업입니다. 다용도 Python 라이브러리인 Pandas는 이러한 작업을 처리하기 위한 강력한 기능을 제공합니다. 여러 범주형 필드와 시간으로 구성된 데이터를 처리할 때 groupby.diff() 메서드는 매우 유용합니다.
제공된 것과 같은 DataFrame을 고려해 보세요. 각 사이트는 국가와 날짜에 따라 다양한 점수를 갖습니다. 목표는 각 사이트/국가 조합에 대한 점수의 1/3/5일 차이를 계산하는 것입니다.
문제 해결
이를 달성하기 위해 우리는 다음 단계:
<code class="python">df = df.sort_values(by=['site', 'country', 'date']) df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)</code>
출력:
결과는 계산된 점수 차이를 보여주는 DataFrame입니다.
date | site | country | score | diff |
---|---|---|---|---|
2018-01-01 | fb | es | 100 | 0.0 |
2018-01-02 | fb | gb | 100 | 0.0 |
2018-01-01 | fb | us | 50 | 0.0 |
2018-01-02 | fb | us | 55 | 5.0 |
2018-01-03 | fb | us | 100 | 45.0 |
2018-01-01 | ch | 50 | 0.0 | |
2018-01-02 | ch | 10 | -40.0 | |
2018-01-01 | us | 100 | 0.0 | |
2018-01-02 | us | 70 | -30.0 | |
2018-01-03 | us | 60 | -10.0 |
고급 정렬
"fb"보다 "google"을 우선시하는 등 임의의 순서가 필요한 경우 범주형 열을 생성하고 정렬 매개변수로 할당할 수 있습니다. 이렇게 하면 지정된 순서가 유지됩니다.
위 내용은 Groupby 및 diff()를 사용하여 Pandas DataFrames의 시간 기반 차이를 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!