>데이터 베이스 >MySQL 튜토리얼 >Spark DataFrame GroupBy 작업에서 추가 열을 보존하는 방법은 무엇입니까?

Spark DataFrame GroupBy 작업에서 추가 열을 보존하는 방법은 무엇입니까?

Susan Sarandon
Susan Sarandon원래의
2024-12-25 02:11:17559검색

How to Preserve Additional Columns in Spark DataFrame GroupBy Operations?

Spark DataFrame GroupBy 작업에서 추가 열 보존

Spark DataFrame groupBy 쿼리에서는 그룹 관련 열과 집계만 검색하는 것이 일반적입니다. . 그러나 그룹 키 및 집계 함수 결과 이외의 추가 열을 유지하려는 시나리오가 있을 수 있습니다.

다음 groupBy 작업을 고려하세요.

df.groupBy(df("age")).agg(Map("id" -> "count"))

이 쿼리는 다음과 같은 DataFrame을 반환합니다. "age"와 "count(id)"라는 두 개의 열만 있습니다. 원본 DataFrame에서 "이름"과 같은 추가 열이 필요한 경우 여러 가지 접근 방식을 활용할 수 있습니다.

접근 방법 1: 집계된 결과를 원본 테이블과 조인

하나 방법은 DataFrame을 집계된 결과와 조인하여 누락된 열을 검색하는 것입니다. 예를 들면 다음과 같습니다.

val agg = df.groupBy(df("age")).agg(Map("id" -> "count"))
val result = df.join(agg, df("age") === agg("age"))

이 기술은 원본 DataFrame의 모든 열을 보존하지만 대규모 데이터 세트의 경우 효율성이 떨어질 수 있습니다.

접근 방식 2: 추가 함수를 사용하여 집계(첫 번째/마지막) )

first 또는 last와 같은 추가 집계 함수를 사용하여 집계에 그룹이 아닌 열을 포함할 수도 있습니다. 결과. 예:

df.groupBy(df("age")).agg(Map("id" -> "count", "name" -> "first"))

이렇게 하면 "age", "count(id)" 및 "first(name)"라는 세 개의 열이 있는 DataFrame이 반환됩니다.

접근 방식 3: 창 기능 Where 필터

경우에 따라 Where 필터와 결합된 창 기능을 활용하여 원하는 결과를 얻을 수 있습니다. 그러나 이 접근 방식은 성능에 영향을 미칠 수 있습니다.

df.select(
  col("name"),
  col("age"),
  count("id").over(Window.partitionBy("age").rowsBetween(Window.unboundedPreceding, Window.currentRow))
).where(col("name").isNotNull)

이러한 기술을 사용하면 Spark DataFrames에서 groupBy 작업을 수행할 때 추가 열을 효과적으로 보존하여 다양한 분석 요구 사항을 수용할 수 있습니다.

위 내용은 Spark DataFrame GroupBy 작업에서 추가 열을 보존하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.