집 >데이터 베이스 >MySQL 튜토리얼 >MySQL에서 분위수 값을 쿼리하는 방법
분위수 값의 개념
통계 및 데이터 분석에서 분위수(또는 사분위수)는 데이터 분포의 통계적 특성을 설명하는 데 자주 사용됩니다. 일반적으로 분위수 값은 첫 번째 분위수(Q1), 두 번째 분위수(Q2)(즉, 중앙값), 세 번째 분위수(Q3) 및 극단 차이(IQR) 등 4개의 동일한 부분으로 나뉩니다. 그 중 데이터의 1/4은 첫 번째 분위수보다 작고, 데이터의 1/4은 세 번째 분위수보다 크며, 데이터의 중간 50%는 첫 번째 분위수와 세 번째 분위수 사이에 있습니다. 통계에서 첫 번째 분위수는 데이터 집합을 크기 순으로 정렬한 후 전체 시퀀스의 상위 25%에 해당하는 숫자를 의미하고, 두 번째 분위수는 데이터 집합을 크기 순으로 정렬한 후 마지막 숫자를 의미합니다. 중간 위치에 있고 세 번째 분위수는 데이터 세트를 크기 순서로 배열한 후 전체 시퀀스의 하위 25%에 있는 숫자를 나타냅니다. 중앙값은 두 번째 사분위수입니다. 데이터 분석에서 분위수 값은 데이터 분포를 이해하고 데이터가 한쪽으로 치우쳐 있는지 또는 얼마나 분산되어 있는지 확인하는 데 도움이 될 수 있습니다. 데이터 분포가 고르지 않으면 분위수 값이 데이터의 차이를 더 정확하게 나타낼 수 있습니다.
가맹점이 발행하는 쿠폰의 액면가 분포 범위는 [1, 20]이며, 각 쿠폰에는 해당 액면가가 표시됩니다. 쿠폰 비용을 정확하게 통제하기 위해서는 쿠폰 발행 상황을 실시간으로 파악하여 보다 정확한 평가가 필요합니다. 쿠폰 발행량, 평균 쿠폰 발행량, 발행량 분위값에 대한 실시간 모니터링(간격별로 발행된 평균 쿠폰 금액 파악)을 통해, 쿠폰 발행에 대한 보다 명확한 이해가 가능합니다. 쿠폰.
현재 비즈니스에서는 다음 지표를 정리했으며 학생들에게 데이터 제공을 요구합니다. 모든 지표는 미세한 통계 세분화를 기반으로 합니다.
발행 금액: 발행된 쿠폰 총액
평균 쿠폰 발행 금액: 발행된 총액/ 총 발행량
쿠폰 발행량 0.1 백분위수 평균: 분당 발행된 쿠폰의 양을 액면가 기준으로 정렬하여 액면가가 앞에, 액면이 작을수록 분당 발행된 쿠폰 중 상위 10%의 평균 값을 계산합니다. 예를 들어, 쿠폰 금액의 순서는 10, 9, 8, 8, 6, 5, 4, 4, 2, 2이며, 0.1 분위수 평균은 10입니다.]
쿠폰 금액의 0.2 분위수 평균: 금액 분당 발행된 쿠폰 수는 액면가를 기준으로 하며, 액면가가 큰 쪽이 앞에 오거나 액면가가 작은 쪽이 오도록 하여 분당 발행된 쿠폰 중 상위 20%의 평균 값을 계산합니다. 예를 들어 발행된 쿠폰의 액면가 순서는 다음과 같습니다. : 10,9,8,8, 6, 5, 4, 4, 2, 2이면 0.2 분위수 평균은 (10+9)/2=9.5]
발행량, 평균 쿠폰 금액 등의 지표 MySQL을 이용하여 구현할 수 있는데 어떻게 구현하고 사용하는지 MySQL에서 Quantile 값을 쿼리하는 것은 어떨까요?
MySQL은 정렬을 구현합니다
row_number() over ( partition by a1.min order by metric_value desc) as orderNum
metric_value는 쿠폰 발행량을 나타냅니다. 위 함수를 통해 쿠폰 발행량에 따라 정렬이 가능하며, 분당 쿠폰 발행 데이터는 금액별로 정렬됩니다
MySQL. topN을 구현
SELECT * FROM sales ORDER BY amount DESC LIMIT 10;
분명히, 이 topN 방법은 분 단위로 정렬을 수행할 수 없으며 상위 N%가 사용됩니다. N%의 양을 알기 위해서는 먼저 총액을 파악해야 하므로 먼저 분당 총액을 계산해야 합니다. 그런 다음 N%를 곱하면 N%를 추출하는 데 필요한 데이터의 양을 알 수 있습니다.
select hour,min, count(1) as cn from table where dt=20230423 and hour=11 and min>=0 and min<=30 group by hour,min
그런 다음 통계 결과에 N%를 곱합니다
select dt,a2.hour,a2.min as min,metric_value, round(cn*N%) as cn, orderNum from ( select dt,hour,a1.min as min, metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum from table a1 where dt=20230423 and hour=11 and min>=0 and min<=30 ) as a2 inner join ( select hour,min , count(1) as cn from table c where dt=20230423 and hour=11 and min>=0 and min<=30 group by hour,min ) a3 on a2.hour=a3.hour and a2.min=a3.min
이렇게 하면 cn(분위수 값을 계산하는 데 필요한 데이터의 양)의 크기와 orderNum(현재 쿠폰은 단위별로 정렬됩니다. 데이터의 처음 N%를 가져온 다음 데이터의 이 부분에 대해 평균 처리를 수행하여 분위수 값 데이터를 가져옵니다.
계산 로직을 조정하고 이를 융합하여 다음과 같이 백분위수 값의 SQL을 얻습니다.
select dt,hour,min, round(avg(metric_value)) as metric_value from ( select dt,a2.hour,a2.min as min,metric_value, round(cn*?) as cn, orderNum from ( select dt,hour,a1.min as min, metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum from table a1 where dt=20230423 and hour=11 and min>=0 and min<=30 ) as a2 inner join ( select hour,min, count(1) as cn from table a1 where dt=20230423 and hour=11 and min>=0 and min<=30 ) as a3 on a2.hour=a3.hour and a2.min=a3.min ) as q where cn>orderNum group by dt,hour,min order by dt,hour,min
이 데이터는 cn > orderNum.인 경우 백분위수 값 통계 계산 범위 내에 있습니다. 0.1 백분위수 값을 계산하기 위해서는 분당 최초 10%의 쿠폰 발행 데이터를 수집해야 한다. 액면가별로 정렬하고 분 단위로 그룹화한 후 각 기록에 기록 순위가 표시됩니다. 분당 발행된 쿠폰의 총량에 10%를 곱하여 cnt를 구합니다. 이 값은 해당 분의 0.1분 평균을 계산하는 데 필요한 데이터의 양입니다. cnt 설명 MySQL을 사용하여 분위수 값을 계산하기 전에는 항상 분당 쿠폰 발행 데이터를 Java 프로그램을 통해 쿼리한 후 정렬하고 평균을 계산하는 방식으로 분위수 값을 구현했습니다. 프로그램 구현 시 가장 큰 문제점은 발행된 쿠폰의 양이 상대적으로 많을 경우 일정 기간 동안의 분위수 값 지표를 쿼리해야 하므로 프로그램에 큰 부담이 된다는 점입니다. 실제로 우리의 실제 사업에서는 이런 문제가 있습니다. 2시간 분량의 분위수 값 데이터를 쿼리할 때마다 백만 개가 넘는 데이터가 Java 프로그램에 로드됩니다. 이는 데이터 쿼리 서비스에 있어서 매우 무서운 일입니다. 이 문제를 해결하기 위해서는 MySQL을 통해 Quantile 값에 대한 쿼리를 구현해야 합니다. 상세 데이터는 프로그램에서 쿼리하여 Quantile 값을 계산합니다. --> MySQL은 Quantile 값에 대한 직접 쿼리를 구현합니다. 성능은 1분 이상 --> 15초 이내입니다. 개선 위 내용은 MySQL에서 분위수 값을 쿼리하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!Effect