찾다
데이터 베이스MySQL 튜토리얼MySQL에서 분위수 값을 쿼리하는 방법

배경

분위수 값의 개념

통계 및 데이터 분석에서 분위수(또는 사분위수)는 데이터 분포의 통계적 특성을 설명하는 데 자주 사용됩니다. 일반적으로 분위수 값은 첫 번째 분위수(Q1), 두 번째 분위수(Q2)(즉, 중앙값), 세 번째 분위수(Q3) 및 극단 차이(IQR) 등 4개의 동일한 부분으로 나뉩니다. 그 중 데이터의 1/4은 첫 번째 분위수보다 작고, 데이터의 1/4은 세 번째 분위수보다 크며, 데이터의 중간 50%는 첫 번째 분위수와 세 번째 분위수 사이에 있습니다. 통계에서 첫 번째 분위수는 데이터 집합을 크기 순으로 정렬한 후 전체 시퀀스의 상위 25%에 해당하는 숫자를 의미하고, 두 번째 분위수는 데이터 집합을 크기 순으로 정렬한 후 마지막 숫자를 의미합니다. 중간 위치에 있고 세 번째 분위수는 데이터 세트를 크기 순서로 배열한 후 전체 시퀀스의 하위 25%에 있는 숫자를 나타냅니다. 중앙값은 두 번째 사분위수입니다. 데이터 분석에서 분위수 값은 데이터 분포를 이해하고 데이터가 한쪽으로 치우쳐 있는지 또는 얼마나 분산되어 있는지 확인하는 데 도움이 될 수 있습니다. 데이터 분포가 고르지 않으면 분위수 값이 데이터의 차이를 더 정확하게 나타낼 수 있습니다.

사업배경

가맹점이 발행하는 쿠폰의 액면가 분포 범위는 [1, 20]이며, 각 쿠폰에는 해당 액면가가 표시됩니다. 쿠폰 비용을 정확하게 통제하기 위해서는 쿠폰 발행 상황을 실시간으로 파악하여 보다 정확한 평가가 필요합니다. 쿠폰 발행량, 평균 쿠폰 발행량, 발행량 분위값에 대한 실시간 모니터링(간격별로 발행된 평균 쿠폰 금액 파악)을 통해, 쿠폰 발행에 대한 보다 명확한 이해가 가능합니다. 쿠폰.

현재 비즈니스에서는 다음 지표를 정리했으며 학생들에게 데이터 제공을 요구합니다. 모든 지표는 미세한 통계 세분화를 기반으로 합니다.

발행 금액: 발행된 쿠폰 총액

평균 쿠폰 발행 금액: 발행된 총액/ 총 발행량

쿠폰 발행량 0.1 백분위수 평균: 분당 발행된 쿠폰의 양을 액면가 기준으로 정렬하여 액면가가 앞에, 액면이 작을수록 분당 발행된 쿠폰 중 상위 10%의 평균 값을 계산합니다. 예를 들어, 쿠폰 금액의 순서는 10, 9, 8, 8, 6, 5, 4, 4, 2, 2이며, 0.1 분위수 평균은 10입니다.]

쿠폰 금액의 0.2 분위수 평균: 금액 분당 발행된 쿠폰 수는 액면가를 기준으로 하며, 액면가가 큰 쪽이 앞에 오거나 액면가가 작은 쪽이 오도록 하여 분당 발행된 쿠폰 중 상위 20%의 평균 값을 계산합니다. 예를 들어 발행된 쿠폰의 액면가 순서는 다음과 같습니다. : 10,9,8,8, 6, 5, 4, 4, 2, 2이면 0.2 분위수 평균은 (10+9)/2=9.5]

발행량, 평균 쿠폰 금액 등의 지표 MySQL을 이용하여 구현할 수 있는데 어떻게 구현하고 사용하는지 MySQL에서 Quantile 값을 쿼리하는 것은 어떨까요?

Thinking

MySQL은 정렬을 구현합니다

row_number() over ( partition by a1.min order by metric_value desc) as orderNum

metric_value는 쿠폰 발행량을 나타냅니다. 위 함수를 통해 쿠폰 발행량에 따라 정렬이 가능하며, 분당 쿠폰 발행 데이터는 금액별로 정렬됩니다

MySQL. topN을 구현

SELECT * FROM sales ORDER BY amount DESC LIMIT 10;

분명히, 이 topN 방법은 분 단위로 정렬을 수행할 수 없으며 상위 N%가 사용됩니다. N%의 양을 알기 위해서는 먼저 총액을 파악해야 하므로 먼저 분당 총액을 계산해야 합니다. 그런 다음 N%를 곱하면 N%를 추출하는 데 필요한 데이터의 양을 알 수 있습니다.

select hour,min, count(1) as cn 
from table  
where dt=20230423 and hour=11 and min>=0 and min<=30 
group by hour,min

그런 다음 통계 결과에 N%를 곱합니다

select dt,a2.hour,a2.min as min,metric_value, round(cn*N%) as cn, orderNum 
from ( 
	select dt,hour,a1.min as min, 
	metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a2 
inner join ( 
	select hour,min , count(1) as cn 
	from table c 
	where dt=20230423 and hour=11 and min>=0 and min<=30  
	group by hour,min ) a3
on a2.hour=a3.hour and a2.min=a3.min

이렇게 하면 cn(분위수 값을 계산하는 데 필요한 데이터의 양)의 크기와 orderNum(현재 쿠폰은 단위별로 정렬됩니다. 데이터의 처음 N%를 가져온 다음 데이터의 이 부분에 대해 평균 처리를 수행하여 분위수 값 데이터를 가져옵니다.

계산 로직을 조정하고 이를 융합하여 다음과 같이 백분위수 값의 SQL을 얻습니다.

select dt,hour,min, round(avg(metric_value)) as metric_value 
from ( 
	select dt,a2.hour,a2.min as min,metric_value, round(cn*?) as cn, orderNum 
from ( 
	select dt,hour,a1.min as min,
	metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a2 
inner join ( 
	select hour,min, count(1) as cn 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a3
on a2.hour=a3.hour and a2.min=a3.min ) as q 
where cn>orderNum 
group by dt,hour,min 
order by dt,hour,min

이 데이터는 cn > orderNum.인 경우 백분위수 값 통계 계산 범위 내에 있습니다. 0.1 백분위수 값을 계산하기 위해서는 분당 최초 10%의 쿠폰 발행 데이터를 수집해야 한다. 액면가별로 정렬하고 분 단위로 그룹화한 후 각 기록에 기록 순위가 표시됩니다. 분당 발행된 쿠폰의 총량에 10%를 곱하여 cnt를 구합니다. 이 값은 해당 분의 0.1분 평균을 계산하는 데 필요한 데이터의 양입니다. cnt

  • 설명 MySQL을 사용하여 분위수 값을 계산하기 전에는 항상 분당 쿠폰 발행 데이터를 Java 프로그램을 통해 쿼리한 후 정렬하고 평균을 계산하는 방식으로 분위수 값을 구현했습니다. 프로그램 구현 시 가장 큰 문제점은 발행된 쿠폰의 양이 상대적으로 많을 경우 일정 기간 동안의 분위수 값 지표를 쿼리해야 하므로 프로그램에 큰 부담이 된다는 점입니다. 실제로 우리의 실제 사업에서는 이런 문제가 있습니다. 2시간 분량의 분위수 값 데이터를 쿼리할 때마다 백만 개가 넘는 데이터가 Java 프로그램에 로드됩니다. 이는 데이터 쿼리 서비스에 있어서 매우 무서운 일입니다. 이 문제를 해결하기 위해서는 MySQL을 통해 Quantile 값에 대한 쿼리를 구현해야 합니다.

Effect

상세 데이터는 프로그램에서 쿼리하여 Quantile 값을 계산합니다. --> MySQL은 Quantile 값에 대한 직접 쿼리를 구현합니다.

성능은 1분 이상 --> 15초 이내입니다. 개선

위 내용은 MySQL에서 분위수 값을 쿼리하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 亿速云에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
MySQL의 장소 : 데이터베이스 및 프로그래밍MySQL의 장소 : 데이터베이스 및 프로그래밍Apr 13, 2025 am 12:18 AM

데이터베이스 및 프로그래밍에서 MySQL의 위치는 매우 중요합니다. 다양한 응용 프로그램 시나리오에서 널리 사용되는 오픈 소스 관계형 데이터베이스 관리 시스템입니다. 1) MySQL은 웹, 모바일 및 엔터프라이즈 레벨 시스템을 지원하는 효율적인 데이터 저장, 조직 및 검색 기능을 제공합니다. 2) 클라이언트 서버 아키텍처를 사용하고 여러 스토리지 엔진 및 인덱스 최적화를 지원합니다. 3) 기본 사용에는 테이블 작성 및 데이터 삽입이 포함되며 고급 사용에는 다중 테이블 조인 및 복잡한 쿼리가 포함됩니다. 4) SQL 구문 오류 및 성능 문제와 같은 자주 묻는 질문은 설명 명령 및 느린 쿼리 로그를 통해 디버깅 할 수 있습니다. 5) 성능 최적화 방법에는 인덱스의 합리적인 사용, 최적화 된 쿼리 및 캐시 사용이 포함됩니다. 모범 사례에는 거래 사용 및 준비된 체계가 포함됩니다

MySQL : 소기업에서 대기업에 이르기까지MySQL : 소기업에서 대기업에 이르기까지Apr 13, 2025 am 12:17 AM

MySQL은 소규모 및 대기업에 적합합니다. 1) 소기업은 고객 정보 저장과 같은 기본 데이터 관리에 MySQL을 사용할 수 있습니다. 2) 대기업은 MySQL을 사용하여 대규모 데이터 및 복잡한 비즈니스 로직을 처리하여 쿼리 성능 및 트랜잭션 처리를 최적화 할 수 있습니다.

Phantom은 무엇을 읽고, Innodb는 어떻게 그들을 막을 수 있습니까 (다음 키 잠금)?Phantom은 무엇을 읽고, Innodb는 어떻게 그들을 막을 수 있습니까 (다음 키 잠금)?Apr 13, 2025 am 12:16 AM

InnoDB는 팬텀 읽기를 차세대 점화 메커니즘을 통해 효과적으로 방지합니다. 1) Next-Keylocking은 Row Lock과 Gap Lock을 결합하여 레코드와 간격을 잠그기 위해 새로운 레코드가 삽입되지 않도록합니다. 2) 실제 응용 분야에서 쿼리를 최적화하고 격리 수준을 조정함으로써 잠금 경쟁을 줄이고 동시성 성능을 향상시킬 수 있습니다.

MySQL : 프로그래밍 언어는 아니지만 ...MySQL : 프로그래밍 언어는 아니지만 ...Apr 13, 2025 am 12:03 AM

MySQL은 프로그래밍 언어가 아니지만 쿼리 언어 SQL은 프로그래밍 언어의 특성을 가지고 있습니다. 1. SQL은 조건부 판단, 루프 및 가변 작업을 지원합니다. 2. 저장된 절차, 트리거 및 기능을 통해 사용자는 데이터베이스에서 복잡한 논리 작업을 수행 할 수 있습니다.

MySQL : 세계에서 가장 인기있는 데이터베이스 소개MySQL : 세계에서 가장 인기있는 데이터베이스 소개Apr 12, 2025 am 12:18 AM

MySQL은 오픈 소스 관계형 데이터베이스 관리 시스템으로, 주로 데이터를 신속하고 안정적으로 저장하고 검색하는 데 사용됩니다. 작업 원칙에는 클라이언트 요청, 쿼리 해상도, 쿼리 실행 및 반환 결과가 포함됩니다. 사용의 예로는 테이블 작성, 데이터 삽입 및 쿼리 및 조인 작업과 같은 고급 기능이 포함됩니다. 일반적인 오류에는 SQL 구문, 데이터 유형 및 권한이 포함되며 최적화 제안에는 인덱스 사용, 최적화 된 쿼리 및 테이블 분할이 포함됩니다.

MySQL의 중요성 : 데이터 저장 및 관리MySQL의 중요성 : 데이터 저장 및 관리Apr 12, 2025 am 12:18 AM

MySQL은 데이터 저장, 관리, 쿼리 및 보안에 적합한 오픈 소스 관계형 데이터베이스 관리 시스템입니다. 1. 다양한 운영 체제를 지원하며 웹 응용 프로그램 및 기타 필드에서 널리 사용됩니다. 2. 클라이언트-서버 아키텍처 및 다양한 스토리지 엔진을 통해 MySQL은 데이터를 효율적으로 처리합니다. 3. 기본 사용에는 데이터베이스 및 테이블 작성, 데이터 삽입, 쿼리 및 업데이트가 포함됩니다. 4. 고급 사용에는 복잡한 쿼리 및 저장 프로 시저가 포함됩니다. 5. 설명 진술을 통해 일반적인 오류를 디버깅 할 수 있습니다. 6. 성능 최적화에는 인덱스의 합리적인 사용 및 최적화 된 쿼리 문이 포함됩니다.

MySQL을 사용하는 이유는 무엇입니까? 혜택과 장점MySQL을 사용하는 이유는 무엇입니까? 혜택과 장점Apr 12, 2025 am 12:17 AM

MySQL은 성능, 신뢰성, 사용 편의성 및 커뮤니티 지원을 위해 선택됩니다. 1.MYSQL은 효율적인 데이터 저장 및 검색 기능을 제공하여 여러 데이터 유형 및 고급 쿼리 작업을 지원합니다. 2. 고객-서버 아키텍처 및 다중 스토리지 엔진을 채택하여 트랜잭션 및 쿼리 최적화를 지원합니다. 3. 사용하기 쉽고 다양한 운영 체제 및 프로그래밍 언어를 지원합니다. 4. 강력한 지역 사회 지원을 받고 풍부한 자원과 솔루션을 제공합니다.

InnoDB 잠금 장치 (공유 잠금, 독점 잠금, 의도 잠금, 레코드 잠금, 갭 잠금, 차세대 자물쇠)를 설명하십시오.InnoDB 잠금 장치 (공유 잠금, 독점 잠금, 의도 잠금, 레코드 잠금, 갭 잠금, 차세대 자물쇠)를 설명하십시오.Apr 12, 2025 am 12:16 AM

InnoDB의 잠금 장치에는 공유 잠금 장치, 독점 잠금, 의도 잠금 장치, 레코드 잠금, 갭 잠금 및 다음 키 잠금 장치가 포함됩니다. 1. 공유 잠금을 사용하면 다른 트랜잭션을 읽지 않고 트랜잭션이 데이터를 읽을 수 있습니다. 2. 독점 잠금은 다른 트랜잭션이 데이터를 읽고 수정하는 것을 방지합니다. 3. 의도 잠금은 잠금 효율을 최적화합니다. 4. 레코드 잠금 잠금 인덱스 레코드. 5. 갭 잠금 잠금 장치 색인 기록 간격. 6. 다음 키 잠금은 데이터 일관성을 보장하기 위해 레코드 잠금과 갭 잠금의 조합입니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.