대규모 데이터세트를 처리할 때 중앙값을 찾는 것이 계산적으로 비용이 많이 드는 작업입니다. Spark의 sortBy() 및 sortByKey()와 같은 중앙값 계산을 위한 기본 메서드는 수백만 개의 요소가 있는 RDD에 적합하지 않습니다.
시작 Spark 버전 2.0의 appQuantile() 메서드는 중앙값을 포함하여 분위수를 계산하기 위한 대략적인 솔루션을 제공합니다. 이 방법은 Greenwald-Khanna 알고리즘을 활용하여 최소한의 계산 비용으로 정확한 중앙값 추정을 제공합니다.
Spark 2.2에서는 여러 열에 대한 분위수 추정 지원을 도입했습니다. 이를 통해 더 복잡한 데이터 세트에 대한 분위수 계산이 가능합니다.
aboutQuantile()을 직접 사용하는 것 외에도 app_percentile 함수를 사용하여 SQL 집계에서 활용할 수도 있습니다. 이 함수는 데이터프레임에서 분위수를 추정하는 프로세스를 단순화합니다.
2.0 이전 Spark 버전의 경우 중앙값을 근사화하기 위한 대체 방법이 있습니다. 이러한 방법에는 일반적으로 RDD를 정렬하고 RDD의 길이에 따라 적절한 값을 선택하는 작업이 포함됩니다. 그러나 이러한 메서드는 aboutQuantile()과 동일한 수준의 정확도를 제공하지 않을 수 있습니다.
HiveContext를 사용하는 경우 Hive 사용자 정의 집계 함수(UDAF) 분위수 추정을 위한 또 다른 옵션을 제공합니다. 백분위수_대략() 및 백분위수() UDAF는 각각 정수 및 연속 값에 사용할 수 있습니다.
위 내용은 Spark에서 대규모 데이터세트의 중앙값과 분위수를 효율적으로 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!