Groupby 및 diff()를 사용하여 Pandas DataFrames의 시간 기반 차이를 계산하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Groupby 및 diff()를 사용하여 Pandas DataFrames의 시간 기반 차이를 계산하는 방법은 무엇입니까?

Barbara Streisand

Oct 30, 2024 am 07:45 AM

How to Calculate Time-Based Differences in Pandas DataFrames Using Groupby and diff()?

Pandas Groupby 시간 기반 차이에 대한 다중 필드

데이터 분석 영역에서 시간에 따른 변화를 비교하는 것은 중요한 작업입니다. 다용도 Python 라이브러리인 Pandas는 이러한 작업을 처리하기 위한 강력한 기능을 제공합니다. 여러 범주형 필드와 시간으로 구성된 데이터를 처리할 때 groupby.diff() 메서드는 매우 유용합니다.

제공된 것과 같은 DataFrame을 고려해 보세요. 각 사이트는 국가와 날짜에 따라 다양한 점수를 갖습니다. 목표는 각 사이트/국가 조합에 대한 점수의 1/3/5일 차이를 계산하는 것입니다.

문제 해결

이를 달성하기 위해 우리는 다음 단계:

DataFrame 정렬: sort_values()를 사용하여 사이트, 국가 및 날짜별로 일관된 순서로 데이터를 정렬합니다.
사이트 및 국가별 그룹화: groupby()를 활용하여 사이트 및 국가 필드를 기반으로 그룹을 만듭니다.
차이 계산: 각 그룹 내에 diff()를 적용하여 점수를 계산합니다. 연속 행의 차이입니다.

<code class="python">df = df.sort_values(by=['site', 'country', 'date'])
df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)</code>

출력:

결과는 계산된 점수 차이를 보여주는 DataFrame입니다.

date	site	country	score	diff
2018-01-01	fb	es	100	0.0
2018-01-02	fb	gb	100	0.0
2018-01-01	fb	us	50	0.0
2018-01-02	fb	us	55	5.0
2018-01-03	fb	us	100	45.0
2018-01-01	google	ch	50	0.0
2018-01-02	google	ch	10	-40.0
2018-01-01	google	us	100	0.0
2018-01-02	google	us	70	-30.0
2018-01-03	google	us	60	-10.0

고급 정렬

"fb"보다 "google"을 우선시하는 등 임의의 순서가 필요한 경우 범주형 열을 생성하고 정렬 매개변수로 할당할 수 있습니다. 이렇게 하면 지정된 순서가 유지됩니다.

위 내용은 Groupby 및 diff()를 사용하여 Pandas DataFrames의 시간 기반 차이를 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 어레이에서 수행 할 수있는 일반적인 작업은 무엇입니까?Apr 26, 2025 am 12:22 AM

PythonArraysSupportVariousOperations : 1) SlicingExtractsSubsets, 2) 추가/확장 어드먼트, 3) 삽입 값 삽입 ATSpecificPositions, 4) retingdeletesElements, 5) 분류/ReversingChangesOrder 및 6) ListsompectionScreateNewListSbasedOnsistin

어떤 유형의 응용 프로그램에서 Numpy Array가 일반적으로 사용됩니까?Apr 26, 2025 am 12:13 AM

NumpyArraysareSentialplosplicationSefficationSefficientNumericalcomputationsanddatamanipulation. Theyarcrucialindatascience, MachineLearning, Physics, Engineering 및 Financeduetotheiribility에 대한 handlarge-scaledataefficivally. forexample, Infinancialanyaly

파이썬의 목록 위의 배열을 언제 사용 하시겠습니까?Apr 26, 2025 am 12:12 AM

UseanArray.ArrayOveralistInpyThonWhendealingwithhomogeneousData, Performance-CriticalCode, OrinterFacingwithCcode.1) HomogeneousData : ArraysSaveMemorywithtypepletement.2) Performance-CriticalCode : arraysofferbetterporcomanceFornumericalOperations.3) Interf

모든 목록 작업은 배열에 의해 지원됩니까? 왜 또는 왜 그렇지 않습니까?Apr 26, 2025 am 12:05 AM

아니요, NOTALLLISTOPERATIONARESUPPORTEDBYARRARES, andVICEVERSA.1) ArraySDONOTSUPPORTDYNAMICOPERATIONSLIKEPENDORINSERTWITHUTRESIGING, WHITHIMPACTSPERFORMANCE.2) ListSDONOTEECONSTANTTIMECOMPLEXITEFORDITITICCESSLIKEARRAYSDO.

파이썬 목록에서 요소에 어떻게 액세스합니까?Apr 26, 2025 am 12:03 AM

ToaccesselementsInapyThonlist, 사용 인덱싱, 부정적인 인덱싱, 슬라이스, 오리 화.

어레이는 파이썬으로 과학 컴퓨팅에 어떻게 사용됩니까?Apr 25, 2025 am 12:28 AM

Arraysinpython, 특히 비밀 복구를위한 ArecrucialInscientificcomputing.1) theaRearedFornumericalOperations, DataAnalysis 및 MachinELearning.2) Numpy'SimplementationIncensuressuressurations thanpythonlists.3) arraysenablequick

같은 시스템에서 다른 파이썬 버전을 어떻게 처리합니까?Apr 25, 2025 am 12:24 AM

Pyenv, Venv 및 Anaconda를 사용하여 다양한 Python 버전을 관리 할 수 있습니다. 1) PYENV를 사용하여 여러 Python 버전을 관리합니다. Pyenv를 설치하고 글로벌 및 로컬 버전을 설정하십시오. 2) VENV를 사용하여 프로젝트 종속성을 분리하기 위해 가상 환경을 만듭니다. 3) Anaconda를 사용하여 데이터 과학 프로젝트에서 Python 버전을 관리하십시오. 4) 시스템 수준의 작업을 위해 시스템 파이썬을 유지하십시오. 이러한 도구와 전략을 통해 다양한 버전의 Python을 효과적으로 관리하여 프로젝트의 원활한 실행을 보장 할 수 있습니다.

표준 파이썬 어레이를 통해 Numpy Array를 사용하면 몇 가지 장점은 무엇입니까?Apr 25, 2025 am 12:21 AM

Numpyarrayshaveseveraladvantagesstandardpythonarrays : 1) thearemuchfasterduetoc 기반 간증, 2) thearemorememory-refficient, 특히 withlargedatasets 및 3) wepferoptizedformationsformationstaticaloperations, 만들기, 만들기

See all articles