집 >데이터 베이스 >MySQL 튜토리얼 >Spark DataFrame GroupBy 작업에서 추가 열을 보존하는 방법은 무엇입니까?
Spark DataFrame GroupBy 작업에서 추가 열 보존
Spark DataFrame groupBy 쿼리에서는 그룹 관련 열과 집계만 검색하는 것이 일반적입니다. . 그러나 그룹 키 및 집계 함수 결과 이외의 추가 열을 유지하려는 시나리오가 있을 수 있습니다.
다음 groupBy 작업을 고려하세요.
df.groupBy(df("age")).agg(Map("id" -> "count"))
이 쿼리는 다음과 같은 DataFrame을 반환합니다. "age"와 "count(id)"라는 두 개의 열만 있습니다. 원본 DataFrame에서 "이름"과 같은 추가 열이 필요한 경우 여러 가지 접근 방식을 활용할 수 있습니다.
접근 방법 1: 집계된 결과를 원본 테이블과 조인
하나 방법은 DataFrame을 집계된 결과와 조인하여 누락된 열을 검색하는 것입니다. 예를 들면 다음과 같습니다.
val agg = df.groupBy(df("age")).agg(Map("id" -> "count")) val result = df.join(agg, df("age") === agg("age"))
이 기술은 원본 DataFrame의 모든 열을 보존하지만 대규모 데이터 세트의 경우 효율성이 떨어질 수 있습니다.
접근 방식 2: 추가 함수를 사용하여 집계(첫 번째/마지막) )
first 또는 last와 같은 추가 집계 함수를 사용하여 집계에 그룹이 아닌 열을 포함할 수도 있습니다. 결과. 예:
df.groupBy(df("age")).agg(Map("id" -> "count", "name" -> "first"))
이렇게 하면 "age", "count(id)" 및 "first(name)"라는 세 개의 열이 있는 DataFrame이 반환됩니다.
접근 방식 3: 창 기능 Where 필터
경우에 따라 Where 필터와 결합된 창 기능을 활용하여 원하는 결과를 얻을 수 있습니다. 그러나 이 접근 방식은 성능에 영향을 미칠 수 있습니다.
df.select( col("name"), col("age"), count("id").over(Window.partitionBy("age").rowsBetween(Window.unboundedPreceding, Window.currentRow)) ).where(col("name").isNotNull)
이러한 기술을 사용하면 Spark DataFrames에서 groupBy 작업을 수행할 때 추가 열을 효과적으로 보존하여 다양한 분석 요구 사항을 수용할 수 있습니다.
위 내용은 Spark DataFrame GroupBy 작업에서 추가 열을 보존하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!