다음은 그룹별로 그룹화한 후 지정된 위치 레코드를 추출하는 Python 방법입니다. 좋은 참조 값이 있으며 모든 사람에게 도움이 되기를 바랍니다. 함께 구경해보세요
데이터 분석과 데이터 모델링을 수행할 때 가장 먼저 해야 할 일은 데이터를 처리하고 필요한 정보를 추출하는 일입니다. 다음은 데이터 처리를 보다 편리하게 하기 위해 groupby의 몇 가지 사용법을 소개합니다.
groupby를 사용하여 정보를 추출할 때 그룹화된 샘플의 일부 통계(max, min, var 등)를 찾는 경우가 많습니다. 이제 그룹화된 샘플의 마지막 레코드에서 두 번째 레코드와 세 번째 레코드를 가져오려면 어떻게 해야 합니까? 첫 번째 샘플과 마지막 샘플을 그룹화한 후 첫 번째 샘플과 마지막 샘플을 추출할 수 있습니다. 그러나 지정된 위치에서 샘플을 채취하려는 경우 기성 기능이 없습니다. 우리가 직접 작성해야 합니다. 아래에서는 위의 기능을 구현하는 방법을 소개하겠습니다.
1) 데이터 소개
액션 테이블에는 userid, actionType, actionTime의 3개 열이 있으며 각각 사용자 ID, 사용자 행동 유형, 행동 발생 시간을 나타냅니다. 구체적인 형식은 아래 그림과 같습니다.
2) 그룹핑 연산
a = action.groupby('userid') b = action.groupby('userid')['actionTime'] type(a) type(b)
그룹핑을 해보면 a와 b의 데이터 타입이 DataFrameGroupBy와 SeriesGroupBy
임을 알 수 있습니다.3) 카운트 연산
①다른 사용자의 두 번째/두 번째 작업 시간
action.groupby('userid')['actionTime'].apply(lambda i:i.iloc[1] if len(i)>1 else np.nan) action.groupby('userid')['actionTime'].apply(lambda i:i.iloc[-2] if len(i)>1 else np.nan)
②다른 사용자의 특정 동작의 두 번째/두 번째 작업 시간
action[action['actionType']==2].groupby('userid')['actionTime'].apply(lambda i:i.iloc[1] if len(i)>1 else np.nan) action[action['actionType']==2].groupby('userid')['actionTime'].apply(lambda i:i.iloc[-2] if len(i)>1 else np.nan)
PS: 일부 사용자는 레코드가 하나만 있을 수 있으므로 직접 가져오는 것이 잘못될 수 있으므로 먼저 판단을 내리기 위해 if를 사용합니다.
이렇게 하면 그룹화된 데이터의 모든 위치에서 샘플을 추출할 수 있습니다.
관련 권장사항:
groupby 그룹에서 최대값을 가진 행을 가져오는 pandas 방법
위 내용은 Python은 그룹별 그룹화 후 지정된 위치 기록 방법을 추출합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!