MySQL で分位値をクエリする方法-mysql チュートリアル-php.cn

ホームページ

データベース

mysql チュートリアル

MySQL で分位値をクエリする方法

王林

May 27, 2023 pm 04:36 PM

mysql

背景

分位値の概念

統計やデータ分析では、データ分布の統計的特性を説明するために分位数 (または四分位数) がよく使用されます。一般に、分位値は 4 つの等しい部分、つまり、第 1 分位数 (Q1)、第 2 分位数 (Q2) (つまり中央値)、第 3 分位数 (Q3)、および極値差分 (IQR) に分割されます。このうち、データの 1/4 は第 1 分位より小さく、データの 1/4 は第 3 分位より大きく、データの中間の 50% は第 1 分位と第 3 分位の間にあります。統計では、最初の分位数は、データのセットをサイズの順に並べた後のシーケンス全体の上位 25% の数値を指し、第 2 分位数は、サイズの順に並べたデータのセットを指します。第 3 分位数は、データのセットをサイズ順に並べた後のシーケンス全体の下位 25% の数値を指します。中央値は第 2 四分位です。データ分析では、分位値はデータの分布を理解し、データが一側に偏っているかどうか、またはどの程度分散しているかを判断するのに役立ちます。データの分布が不均一な場合、分位値はデータの差をより正確に表すことができます。

ビジネスの背景

販売者が発行するクーポンの額面配布範囲は [1, 20] で、各クーポンには対応する額面がマークされます。クーポンのコストを正確に管理するには、クーポンの発行状況をリアルタイムで把握し、より正確な評価を行う必要があります。クーポン発行量、平均クーポン発行量、および発行量の分位値をリアルタイムに監視することにより（さまざまな間隔での平均クーポン発行量を把握）、クーポンの発行状況をより明確に把握できます。クーポン。

現在、企業は次の指標を整理し、必要な学生からデータを必要としています。すべての指標は統計的な粒度として分に基づいています:

発行量: 発行されたクーポンの総量

クーポン発行量平均: 発行総額 / 発行総額

クーポン発行金額 0.1 パーセンタイル平均: 1 分あたりのクーポン発行量を額面ごとにソートし、額面の大きい順に並べます。 1 分あたりのクーポン発行量を計算します。クーポンの上位 10% の平均値 (たとえば、クーポン金額の順序は 10、9、8、8、6、5、4、4 です) , 2, 2 の場合、0.1 分位の平均値は 10]

発行されたクーポン金額の 0.2 パーセンタイル平均: 1 分あたりに発行されたクーポンの量は、額面ごとに並べ替えられ、大きい額面が前に、小さい額面が前に表示されます。 1 分あたりのクーポン発行額の上位 20% を計算します。クーポンの平均値 (たとえば、発行されたクーポンの額面順は 10、9、8、8、6、5、4、4、2、 2 の場合、0.2 パーセンタイルの平均値は (10 9)/2=9.5 です。]

クーポンの発行量や平均枚数などの指標は、MySQL を使用して実装できます。分位値?

思考

MySQLはsortingを実装しています

row_number() over ( partition by a1.min order by metric_value desc) as orderNum

metric_valueはクーポンの発行量を表しており、上記の関数によりクーポンの発行量に応じてソートすることができ、 1 分あたりのクーポン発行データは金額ソートに基づいています

MySQL は topN

SELECT * FROM sales ORDER BY amount DESC LIMIT 10;

を実装しています明らかに、この topN メソッドでは分ごとのソートを実現できず、上位 N% が取得されます。 N% の量を知るには、まず合計量を決定する必要があるため、最初に 1 分あたりの合計量を計算する必要があります。次に、それに N% を掛けて、N% を抽出するのに必要なデータ量を求めます。

select hour,min, count(1) as cn 
from table  
where dt=20230423 and hour=11 and min>=0 and min<=30 
group by hour,min

次に、統計結果に N%

select dt,a2.hour,a2.min as min,metric_value, round(cn*N%) as cn, orderNum 
from ( 
	select dt,hour,a1.min as min, 
	metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a2 
inner join ( 
	select hour,min , count(1) as cn 
	from table c 
	where dt=20230423 and hour=11 and min>=0 and min<=30  
	group by hour,min ) a3
on a2.hour=a3.hour and a2.min=a3.min

を掛けます。このようにして、cn (分位値の計算に必要なデータの量) と orderNum (データのサイズ) を比較できます。額面に基づく現在のクーポン (ソート順のサイズ) を使用してデータの最初の N% を取得し、データのこの部分に対して平均処理を実行して分位値データを取得します。

計算ロジックを調整して融合し、次のようにパーセンタイル値の SQL を取得します。

select dt,hour,min, round(avg(metric_value)) as metric_value 
from ( 
	select dt,a2.hour,a2.min as min,metric_value, round(cn*?) as cn, orderNum 
from ( 
	select dt,hour,a1.min as min,
	metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a2 
inner join ( 
	select hour,min, count(1) as cn 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a3
on a2.hour=a3.hour and a2.min=a3.min ) as q 
where cn>orderNum 
group by dt,hour,min 
order by dt,hour,min

このデータは、cn > orderNum の場合、パーセンタイル値の統計を計算できる範囲内にあります。 0.1 パーセンタイル値を計算するには、1 分あたりのクーポン発行データの最初の 10% を収集する必要があります。額面ごとに並べ替え、分ごとにグループ化した後、各レコードにはレコードのランクがマークされます。 1分あたりのクーポン発行量の合計に10%を乗じてcntを求めます。この値は、この1分間の0.1分の平均を計算するのに必要なデータ量です。cnt

説明 MySQL を使用して分位値を計算する前に、分位値は常に Java プログラムを通じて毎分クーポン発行データに対してクエリされ、ソートされて計算されていました。平均、達成する。プログラムの実装に関する最大の問題は、クーポンの発行量が比較的多い場合、一定期間の分位値指標を照会する必要があり、プログラムに大きな負担がかかることです。実際、私たちの実際のビジネスでもこの問題は発生しています。 2 時間の分位値データをクエリするたびに、100 万を超えるデータが Java プログラムに読み込まれることになります。これはデータクエリサービスにとって非常に恐ろしいことです。この問題を解決するには、MySQL を介して分位値のクエリを実装する必要があります。

効果

プログラムは詳細データをクエリして分位値を計算します --> MySQL は分位値の直接クエリを実装します

パフォーマンス>1分から開始 --> 15秒以内; パフォーマンスが大幅に向上

以上がMySQL で分位値をクエリする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は亿速云で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

MySQLの場所：データベースとプログラミングApr 13, 2025 am 12:18 AM

データベースとプログラミングにおけるMySQLの位置は非常に重要です。これは、さまざまなアプリケーションシナリオで広く使用されているオープンソースのリレーショナルデータベース管理システムです。 1）MySQLは、効率的なデータストレージ、組織、および検索機能を提供し、Web、モバイル、およびエンタープライズレベルのシステムをサポートします。 2）クライアントサーバーアーキテクチャを使用し、複数のストレージエンジンとインデックスの最適化をサポートします。 3）基本的な使用には、テーブルの作成とデータの挿入が含まれ、高度な使用法にはマルチテーブル結合と複雑なクエリが含まれます。 4）SQL構文エラーやパフォーマンスの問題などのよくある質問は、説明コマンドとスロークエリログを介してデバッグできます。 5）パフォーマンス最適化方法には、インデックスの合理的な使用、最適化されたクエリ、およびキャッシュの使用が含まれます。ベストプラクティスには、トランザクションと準備された星の使用が含まれます

MySQL：中小企業から大企業までApr 13, 2025 am 12:17 AM

MySQLは、中小企業に適しています。 1）中小企業は、顧客情報の保存など、基本的なデータ管理にMySQLを使用できます。 2）大企業はMySQLを使用して、大規模なデータと複雑なビジネスロジックを処理して、クエリのパフォーマンスとトランザクション処理を最適化できます。

Phantomの読み取りとは何ですか？Innodbはどのようにそれらを防ぐ（次のキーロック）？Apr 13, 2025 am 12:16 AM

INNODBは、次のキーロックメカニズムを通じてファントムの読み取りを効果的に防止します。 1）Next-KeyLockingは、Row LockとGap Lockを組み合わせてレコードとギャップをロックして、新しいレコードが挿入されないようにします。 2）実際のアプリケーションでは、クエリを最適化して分離レベルを調整することにより、ロック競争を削減し、並行性パフォーマンスを改善できます。

mysql：プログラミング言語ではありませんが...Apr 13, 2025 am 12:03 AM

MySQLはプログラミング言語ではありませんが、そのクエリ言語SQLにはプログラミング言語の特性があります。1。SQLは条件付き判断、ループ、可変操作をサポートします。 2。ストアドプロシージャ、トリガー、機能を通じて、ユーザーはデータベースで複雑な論理操作を実行できます。

MySQLはオープンソースのリレーショナルデータベース管理システムであり、主にデータを迅速かつ確実に保存および取得するために使用されます。その実用的な原則には、クライアントリクエスト、クエリ解像度、クエリの実行、返品結果が含まれます。使用法の例には、テーブルの作成、データの挿入とクエリ、および参加操作などの高度な機能が含まれます。一般的なエラーには、SQL構文、データ型、およびアクセス許可、および最適化の提案には、インデックスの使用、最適化されたクエリ、およびテーブルの分割が含まれます。

MySQLの重要性：データストレージと管理Apr 12, 2025 am 12:18 AM

MySQLは、データストレージ、管理、クエリ、セキュリティに適したオープンソースのリレーショナルデータベース管理システムです。 1.さまざまなオペレーティングシステムをサポートし、Webアプリケーションやその他のフィールドで広く使用されています。 2。クライアントサーバーアーキテクチャとさまざまなストレージエンジンを通じて、MySQLはデータを効率的に処理します。 3.基本的な使用には、データベースとテーブルの作成、挿入、クエリ、データの更新が含まれます。 4.高度な使用には、複雑なクエリとストアドプロシージャが含まれます。 5.一般的なエラーは、説明ステートメントを介してデバッグできます。 6.パフォーマンスの最適化には、インデックスの合理的な使用と最適化されたクエリステートメントが含まれます。

なぜMySQLを使用するのですか？利点と利点Apr 12, 2025 am 12:17 AM

MySQLは、そのパフォーマンス、信頼性、使いやすさ、コミュニティサポートに選択されています。 1.MYSQLは、複数のデータ型と高度なクエリ操作をサポートし、効率的なデータストレージおよび検索機能を提供します。 2.クライアントサーバーアーキテクチャと複数のストレージエンジンを採用して、トランザクションとクエリの最適化をサポートします。 3.使いやすく、さまざまなオペレーティングシステムとプログラミング言語をサポートしています。 4.強力なコミュニティサポートを提供し、豊富なリソースとソリューションを提供します。

InnoDBロックメカニズム（共有ロック、排他的ロック、意図ロック、レコードロック、ギャップロック、次のキーロック）を説明します。Apr 12, 2025 am 12:16 AM

INNODBのロックメカニズムには、共有ロック、排他的ロック、意図ロック、レコードロック、ギャップロック、次のキーロックが含まれます。 1.共有ロックにより、トランザクションは他のトランザクションが読み取らないようにデータを読み取ることができます。 2.排他的ロックは、他のトランザクションがデータの読み取りと変更を防ぎます。 3.意図ロックは、ロック効率を最適化します。 4。ロックロックインデックスのレコードを記録します。 5。ギャップロックロックインデックス記録ギャップ。 6.次のキーロックは、データの一貫性を確保するためのレコードロックとギャップロックの組み合わせです。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。