집 >데이터 베이스 >MySQL 튜토리얼 >Spark DataFrame에서 그룹화할 때 다른 열을 어떻게 유지합니까?
Spark DataFrame에서 그룹화할 때 다른 열 보존
DataFrame 그룹화 작업을 수행할 때 그룹화된 열만 수신하는 문제가 발생하는 것이 일반적입니다. 열과 집계 값. 원본 DataFrame의 다른 열을 보존해야 하는 경우 이는 불편할 수 있습니다.
예를 들어 다음 groupby를 고려하세요.
df.groupBy(df("age")).agg(Map("id" -> "count"))
이렇게 하면 "age"만 포함된 DataFrame이 반환됩니다. 및 "count(id)" 열. 그러나 원본 DataFrame에 "name" 및 기타 열이 있는 경우 이를 결과에 포함할 수 있습니다.
표준 SQL에서는 다음 쿼리를 사용하여 이를 수행할 수 있습니다.
select name, age, count(id) from df group by age
Spark에서 이 동작을 재현하려면 집계된 결과를 원본 테이블과 조인하면 됩니다. 조인을 위한 키 열은 groupby 열과 동일해야 합니다.
다음은 Spark SQL을 사용하는 예입니다.
val groupedDf = df.groupBy($"age").agg(count($"id").as("count")) val joinedDf = df.join(groupedDf, Seq("age"), "left")
이제 JoinDf에는 모든 항목이 포함됩니다. 원래 열과 집계된 "개수" 열을 함께 표시합니다.
또 다른 접근 방식은 첫 번째 또는 마지막과 같은 임의 집계를 사용하여 추가 열을 포함하는 것입니다. 예:
val groupedDf = df.groupBy($"age").agg(first($"name").as("name"), count($"id").as("count"))
이렇게 하면 "이름" 열이 집계된 DataFrame에 보존됩니다.
이러한 방법을 사용하면 그룹화 중에 다른 열을 검색할 수 있지만 주의해야 할 사항은 다음과 같습니다. 이러한 쿼리는 일반적으로 잘 정의되어 있지 않으며 다양한 시스템에서 다양한 동작을 나타낼 수 있습니다.
위 내용은 Spark DataFrame에서 그룹화할 때 다른 열을 어떻게 유지합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!