찾다
데이터 베이스MySQL 튜토리얼MySQL에서 분위수 값을 쿼리하는 방법

배경

분위수 값의 개념

통계 및 데이터 분석에서 분위수(또는 사분위수)는 데이터 분포의 통계적 특성을 설명하는 데 자주 사용됩니다. 일반적으로 분위수 값은 첫 번째 분위수(Q1), 두 번째 분위수(Q2)(즉, 중앙값), 세 번째 분위수(Q3) 및 극단 차이(IQR) 등 4개의 동일한 부분으로 나뉩니다. 그 중 데이터의 1/4은 첫 번째 분위수보다 작고, 데이터의 1/4은 세 번째 분위수보다 크며, 데이터의 중간 50%는 첫 번째 분위수와 세 번째 분위수 사이에 있습니다. 통계에서 첫 번째 분위수는 데이터 집합을 크기 순으로 정렬한 후 전체 시퀀스의 상위 25%에 해당하는 숫자를 의미하고, 두 번째 분위수는 데이터 집합을 크기 순으로 정렬한 후 마지막 숫자를 의미합니다. 중간 위치에 있고 세 번째 분위수는 데이터 세트를 크기 순서로 배열한 후 전체 시퀀스의 하위 25%에 있는 숫자를 나타냅니다. 중앙값은 두 번째 사분위수입니다. 데이터 분석에서 분위수 값은 데이터 분포를 이해하고 데이터가 한쪽으로 치우쳐 있는지 또는 얼마나 분산되어 있는지 확인하는 데 도움이 될 수 있습니다. 데이터 분포가 고르지 않으면 분위수 값이 데이터의 차이를 더 정확하게 나타낼 수 있습니다.

사업배경

가맹점이 발행하는 쿠폰의 액면가 분포 범위는 [1, 20]이며, 각 쿠폰에는 해당 액면가가 표시됩니다. 쿠폰 비용을 정확하게 통제하기 위해서는 쿠폰 발행 상황을 실시간으로 파악하여 보다 정확한 평가가 필요합니다. 쿠폰 발행량, 평균 쿠폰 발행량, 발행량 분위값에 대한 실시간 모니터링(간격별로 발행된 평균 쿠폰 금액 파악)을 통해, 쿠폰 발행에 대한 보다 명확한 이해가 가능합니다. 쿠폰.

현재 비즈니스에서는 다음 지표를 정리했으며 학생들에게 데이터 제공을 요구합니다. 모든 지표는 미세한 통계 세분화를 기반으로 합니다.

발행 금액: 발행된 쿠폰 총액

평균 쿠폰 발행 금액: 발행된 총액/ 총 발행량

쿠폰 발행량 0.1 백분위수 평균: 분당 발행된 쿠폰의 양을 액면가 기준으로 정렬하여 액면가가 앞에, 액면이 작을수록 분당 발행된 쿠폰 중 상위 10%의 평균 값을 계산합니다. 예를 들어, 쿠폰 금액의 순서는 10, 9, 8, 8, 6, 5, 4, 4, 2, 2이며, 0.1 분위수 평균은 10입니다.]

쿠폰 금액의 0.2 분위수 평균: 금액 분당 발행된 쿠폰 수는 액면가를 기준으로 하며, 액면가가 큰 쪽이 앞에 오거나 액면가가 작은 쪽이 오도록 하여 분당 발행된 쿠폰 중 상위 20%의 평균 값을 계산합니다. 예를 들어 발행된 쿠폰의 액면가 순서는 다음과 같습니다. : 10,9,8,8, 6, 5, 4, 4, 2, 2이면 0.2 분위수 평균은 (10+9)/2=9.5]

발행량, 평균 쿠폰 금액 등의 지표 MySQL을 이용하여 구현할 수 있는데 어떻게 구현하고 사용하는지 MySQL에서 Quantile 값을 쿼리하는 것은 어떨까요?

Thinking

MySQL은 정렬을 구현합니다

row_number() over ( partition by a1.min order by metric_value desc) as orderNum

metric_value는 쿠폰 발행량을 나타냅니다. 위 함수를 통해 쿠폰 발행량에 따라 정렬이 가능하며, 분당 쿠폰 발행 데이터는 금액별로 정렬됩니다

MySQL. topN을 구현

SELECT * FROM sales ORDER BY amount DESC LIMIT 10;

분명히, 이 topN 방법은 분 단위로 정렬을 수행할 수 없으며 상위 N%가 사용됩니다. N%의 양을 알기 위해서는 먼저 총액을 파악해야 하므로 먼저 분당 총액을 계산해야 합니다. 그런 다음 N%를 곱하면 N%를 추출하는 데 필요한 데이터의 양을 알 수 있습니다.

select hour,min, count(1) as cn 
from table  
where dt=20230423 and hour=11 and min>=0 and min<=30 
group by hour,min

그런 다음 통계 결과에 N%를 곱합니다

select dt,a2.hour,a2.min as min,metric_value, round(cn*N%) as cn, orderNum 
from ( 
	select dt,hour,a1.min as min, 
	metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a2 
inner join ( 
	select hour,min , count(1) as cn 
	from table c 
	where dt=20230423 and hour=11 and min>=0 and min<=30  
	group by hour,min ) a3
on a2.hour=a3.hour and a2.min=a3.min

이렇게 하면 cn(분위수 값을 계산하는 데 필요한 데이터의 양)의 크기와 orderNum(현재 쿠폰은 단위별로 정렬됩니다. 데이터의 처음 N%를 가져온 다음 데이터의 이 부분에 대해 평균 처리를 수행하여 분위수 값 데이터를 가져옵니다.

계산 로직을 조정하고 이를 융합하여 다음과 같이 백분위수 값의 SQL을 얻습니다.

select dt,hour,min, round(avg(metric_value)) as metric_value 
from ( 
	select dt,a2.hour,a2.min as min,metric_value, round(cn*?) as cn, orderNum 
from ( 
	select dt,hour,a1.min as min,
	metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a2 
inner join ( 
	select hour,min, count(1) as cn 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a3
on a2.hour=a3.hour and a2.min=a3.min ) as q 
where cn>orderNum 
group by dt,hour,min 
order by dt,hour,min

이 데이터는 cn > orderNum.인 경우 백분위수 값 통계 계산 범위 내에 있습니다. 0.1 백분위수 값을 계산하기 위해서는 분당 최초 10%의 쿠폰 발행 데이터를 수집해야 한다. 액면가별로 정렬하고 분 단위로 그룹화한 후 각 기록에 기록 순위가 표시됩니다. 분당 발행된 쿠폰의 총량에 10%를 곱하여 cnt를 구합니다. 이 값은 해당 분의 0.1분 평균을 계산하는 데 필요한 데이터의 양입니다. cnt

  • 설명 MySQL을 사용하여 분위수 값을 계산하기 전에는 항상 분당 쿠폰 발행 데이터를 Java 프로그램을 통해 쿼리한 후 정렬하고 평균을 계산하는 방식으로 분위수 값을 구현했습니다. 프로그램 구현 시 가장 큰 문제점은 발행된 쿠폰의 양이 상대적으로 많을 경우 일정 기간 동안의 분위수 값 지표를 쿼리해야 하므로 프로그램에 큰 부담이 된다는 점입니다. 실제로 우리의 실제 사업에서는 이런 문제가 있습니다. 2시간 분량의 분위수 값 데이터를 쿼리할 때마다 백만 개가 넘는 데이터가 Java 프로그램에 로드됩니다. 이는 데이터 쿼리 서비스에 있어서 매우 무서운 일입니다. 이 문제를 해결하기 위해서는 MySQL을 통해 Quantile 값에 대한 쿼리를 구현해야 합니다.

Effect

상세 데이터는 프로그램에서 쿼리하여 Quantile 값을 계산합니다. --> MySQL은 Quantile 값에 대한 직접 쿼리를 구현합니다.

성능은 1분 이상 --> 15초 이내입니다. 개선

위 내용은 MySQL에서 분위수 값을 쿼리하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 亿速云에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
InnoDB 버퍼 풀과 성능의 중요성을 설명하십시오.InnoDB 버퍼 풀과 성능의 중요성을 설명하십시오.Apr 19, 2025 am 12:24 AM

innodbbufferpool은 데이터와 인덱싱 페이지를 캐싱하여 디스크 I/O를 줄여 데이터베이스 성능을 향상시킵니다. 작업 원칙에는 다음이 포함됩니다. 1. 데이터 읽기 : BufferPool의 데이터 읽기; 2. 데이터 작성 : 데이터 수정 후 BufferPool에 쓰고 정기적으로 디스크로 새로 고치십시오. 3. 캐시 관리 : LRU 알고리즘을 사용하여 캐시 페이지를 관리합니다. 4. 읽기 메커니즘 : 인접한 데이터 페이지를 미리로드합니다. Bufferpool을 크기를 조정하고 여러 인스턴스를 사용하여 데이터베이스 성능을 최적화 할 수 있습니다.

MySQL 대 기타 프로그래밍 언어 : 비교MySQL 대 기타 프로그래밍 언어 : 비교Apr 19, 2025 am 12:22 AM

다른 프로그래밍 언어와 비교할 때 MySQL은 주로 데이터를 저장하고 관리하는 데 사용되는 반면 Python, Java 및 C와 같은 다른 언어는 논리적 처리 및 응용 프로그램 개발에 사용됩니다. MySQL은 데이터 관리 요구에 적합한 고성능, 확장 성 및 크로스 플랫폼 지원으로 유명하며 다른 언어는 데이터 분석, 엔터프라이즈 애플리케이션 및 시스템 프로그래밍과 같은 해당 분야에서 이점이 있습니다.

MySQL 학습 : 새로운 사용자를위한 단계별 안내서MySQL 학습 : 새로운 사용자를위한 단계별 안내서Apr 19, 2025 am 12:19 AM

MySQL은 데이터 저장, 관리 및 분석에 적합한 강력한 오픈 소스 데이터베이스 관리 시스템이기 때문에 학습 할 가치가 있습니다. 1) MySQL은 SQL을 사용하여 데이터를 작동하고 구조화 된 데이터 관리에 적합한 관계형 데이터베이스입니다. 2) SQL 언어는 MySQL과 상호 작용하는 열쇠이며 CRUD 작업을 지원합니다. 3) MySQL의 작동 원리에는 클라이언트/서버 아키텍처, 스토리지 엔진 및 쿼리 최적화가 포함됩니다. 4) 기본 사용에는 데이터베이스 및 테이블 작성이 포함되며 고급 사용량은 Join을 사용하여 테이블을 결합하는 것과 관련이 있습니다. 5) 일반적인 오류에는 구문 오류 및 권한 문제가 포함되며 디버깅 기술에는 구문 확인 및 설명 명령 사용이 포함됩니다. 6) 성능 최적화에는 인덱스 사용, SQL 문의 최적화 및 데이터베이스의 정기 유지 보수가 포함됩니다.

MySQL : 초보자가 마스터하는 필수 기술MySQL : 초보자가 마스터하는 필수 기술Apr 18, 2025 am 12:24 AM

MySQL은 초보자가 데이터베이스 기술을 배우는 데 적합합니다. 1. MySQL 서버 및 클라이언트 도구를 설치하십시오. 2. SELECT와 같은 기본 SQL 쿼리를 이해하십시오. 3. 마스터 데이터 작업 : 데이터를 만들고, 삽입, 업데이트 및 삭제합니다. 4. 고급 기술 배우기 : 하위 쿼리 및 창 함수. 5. 디버깅 및 최적화 : 구문 확인, 인덱스 사용, 선택*을 피하고 제한을 사용하십시오.

MySQL : 구조화 된 데이터 및 관계형 데이터베이스MySQL : 구조화 된 데이터 및 관계형 데이터베이스Apr 18, 2025 am 12:22 AM

MySQL은 테이블 구조 및 SQL 쿼리를 통해 구조화 된 데이터를 효율적으로 관리하고 외래 키를 통해 테이블 ​​간 관계를 구현합니다. 1. 테이블을 만들 때 데이터 형식을 정의하고 입력하십시오. 2. 외래 키를 사용하여 테이블 간의 관계를 설정하십시오. 3. 인덱싱 및 쿼리 최적화를 통해 성능을 향상시킵니다. 4. 데이터 보안 및 성능 최적화를 보장하기 위해 데이터베이스를 정기적으로 백업 및 모니터링합니다.

MySQL : 주요 기능 및 기능이 설명되었습니다MySQL : 주요 기능 및 기능이 설명되었습니다Apr 18, 2025 am 12:17 AM

MySQL은 웹 개발에 널리 사용되는 오픈 소스 관계형 데이터베이스 관리 시스템입니다. 주요 기능에는 다음이 포함됩니다. 1. 다른 시나리오에 적합한 InnoDB 및 MyISAM과 같은 여러 스토리지 엔진을 지원합니다. 2.로드 밸런싱 및 데이터 백업을 용이하게하기 위해 마스터 슬레이브 복제 기능을 제공합니다. 3. 쿼리 최적화 및 색인 사용을 통해 쿼리 효율성을 향상시킵니다.

SQL의 목적 : MySQL 데이터베이스와 상호 작용합니다SQL의 목적 : MySQL 데이터베이스와 상호 작용합니다Apr 18, 2025 am 12:12 AM

SQL은 MySQL 데이터베이스와 상호 작용하여 데이터 첨가, 삭제, 수정, 검사 및 데이터베이스 설계를 실현하는 데 사용됩니다. 1) SQL은 Select, Insert, Update, Delete 문을 통해 데이터 작업을 수행합니다. 2) 데이터베이스 설계 및 관리에 대한 생성, 변경, 삭제 문을 사용하십시오. 3) 복잡한 쿼리 및 데이터 분석은 SQL을 통해 구현되어 비즈니스 의사 결정 효율성을 향상시킵니다.

초보자를위한 MySQL : 데이터베이스 관리를 시작합니다초보자를위한 MySQL : 데이터베이스 관리를 시작합니다Apr 18, 2025 am 12:10 AM

MySQL의 기본 작업에는 데이터베이스, 테이블 작성 및 SQL을 사용하여 데이터에서 CRUD 작업을 수행하는 것이 포함됩니다. 1. 데이터베이스 생성 : createAbasemy_first_db; 2. 테이블 만들기 : CreateTableBooks (idintauto_incrementprimarykey, titlevarchar (100) notnull, authorvarchar (100) notnull, published_yearint); 3. 데이터 삽입 : InsertIntobooks (Title, Author, Published_year) VA

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경