大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?-mysql チュートリアル-php.cn

ホームページ

データベース

mysql チュートリアル

大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?

Barbara Streisand

Jan 21, 2025 am 05:26 AM

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL のランダム行選択メソッド

従来のランダムな行選択方法は、数百万、さらには数十億のレコードを含む大きなテーブルを扱う場合、非効率的で時間がかかります。一般的なメソッドは次の 2 つです:

random() を使用してフィルタリングします:
```
  select * from table where random() < 0.001;
```

order by random() と limit を使用します:

  select * from table order by random() limit 1000;

ただし、テーブル全体のスキャンや並べ替えが必要なため、これらの方法は行数が多いテーブルには最適ではなく、パフォーマンスのボトルネックを引き起こす可能性があります。

大規模なテーブルの最適化方法

次のタイプのテーブルの場合は、大幅に高速な次の最適化方法を検討してください。

ギャップが小さいまたは中程度の数値 ID 列 (検索を高速化するためにインデックス化されています)
選択中に書き込み操作がないか、最小限の操作

クエリ:

WITH params AS (
  SELECT 1 AS min_id, -- 可选：自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围（最大ID - 最小ID + 缓冲）
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;

仕組み:

ID 範囲の推定:
- 正確にわからない場合は、テーブルにクエリを実行して、ID 列の最小値、最大値、および合計スパン (最大値 - 最小値) を推定します。
ランダム ID 生成:
- 推定された ID 範囲内で別の乱数セットを生成します。
冗長性と重複の削除:
- 生成された数値をグループ化して重複を削除し、欠落している行やすでに選択されている行を選択する可能性を減らします。
テーブルの結合と制限:
- ID 列を使用して、乱数を実際のテーブルと結合します (インデックス付けする必要があります)。この効率的な結合により、選択された行に対応するデータが取得されます。
- 最後に、必要な行数を取得するために制限を適用します。

速い理由:

最小限のインデックス使用量:
- クエリは ID 列のインデックススキャンのみを実行します。これは、テーブル全体のスキャンや並べ替え操作よりもはるかに高速です。
最適化された乱数生成:
- 生成された乱数は推定された ID 範囲全体に分散され、行の欠落または重複の可能性が最小限に抑えられます。
冗長性と重複の削除:
- 生成された数値をグループ化すると、個別の行のみが選択されるようになり、重複を排除するための追加のフィルタリングや結合の必要性が減ります。

その他のオプション:

ギャップを処理するための再帰的 CTE:
- ID シーケンスにギャップがあるテーブルの場合、これらのギャップを処理するために追加の CTE を追加します。
再利用のための関数ラッパー:
- リミットとギャップのパーセンテージをパラメーターとして受け取る関数を定義すると、簡単な構成とさまざまなテーブルでの再利用が可能になります。
あらゆるテーブルのユニバーサル関数:
- 整数列を持つ任意のテーブルをパラメーターとして受け入れる汎用関数を作成します。
高速化のためにビューを実体化する:
- (準) ランダムに選択された行をより高速に取得するために、最適化されたクエリに基づいてマテリアライズドビューを作成することを検討してください。
PostgreSQL 9.5 の
TABLE SAMPLE:
- PostgreSQL の「TABLE SAMPLE SYSTEM」機能を利用して、高速かつランダム性の低い行サンプリング方法を実装し、正確な行数が返されるようにします。ただし、クラスタリング効果により、サンプルは完全にランダムではない可能性があることに注意してください。

以上が大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

MySQLの学習：新しいユーザー向けの段階的なガイドApr 19, 2025 am 12:19 AM

MySQLは、データストレージ、管理、分析に適した強力なオープンソースデータベース管理システムであるため、学習する価値があります。 1）MySQLは、SQLを使用してデータを操作するリレーショナルデータベースであり、構造化されたデータ管理に適しています。 2）SQL言語はMySQLと対話するための鍵であり、CRUD操作をサポートします。 3）MySQLの作業原則には、クライアント/サーバーアーキテクチャ、ストレージエンジン、クエリオプティマイザーが含まれます。 4）基本的な使用には、データベースとテーブルの作成が含まれ、高度な使用にはJoinを使用してテーブルの参加が含まれます。 5）一般的なエラーには、構文エラーと許可の問題が含まれ、デバッグスキルには、構文のチェックと説明コマンドの使用が含まれます。 6）パフォーマンスの最適化には、インデックスの使用、SQLステートメントの最適化、およびデータベースの定期的なメンテナンスが含まれます。

MySQL：初心者が習得するための必須スキルApr 18, 2025 am 12:24 AM

MySQLは、初心者がデータベーススキルを学ぶのに適しています。 1.MySQLサーバーとクライアントツールをインストールします。 2。selectなどの基本的なSQLクエリを理解します。 3。マスターデータ操作：テーブルを作成し、データを挿入、更新、削除します。 4.高度なスキルを学ぶ：サブクエリとウィンドウの関数。 5。デバッグと最適化：構文を確認し、インデックスを使用し、選択*を避け、制限を使用します。

MySQL：構造化データとリレーショナルデータベースApr 18, 2025 am 12:22 AM

MySQLは、テーブル構造とSQLクエリを介して構造化されたデータを効率的に管理し、外部キーを介してテーブル間関係を実装します。 1.テーブルを作成するときにデータ形式と入力を定義します。 2。外部キーを使用して、テーブル間の関係を確立します。 3。インデックス作成とクエリの最適化により、パフォーマンスを改善します。 4.データベースを定期的にバックアップおよび監視して、データのセキュリティとパフォーマンスの最適化を確保します。

MySQL：説明されている主要な機能と機能Apr 18, 2025 am 12:17 AM

MySQLは、Web開発で広く使用されているオープンソースリレーショナルデータベース管理システムです。その重要な機能には、次のものが含まれます。1。さまざまなシナリオに適したInnodbやMyisamなどの複数のストレージエンジンをサポートします。 2。ロードバランスとデータバックアップを容易にするために、マスタースレーブレプリケーション機能を提供します。 3.クエリの最適化とインデックスの使用により、クエリ効率を改善します。

SQLの目的：MySQLデータベースとの対話Apr 18, 2025 am 12:12 AM

SQLは、MySQLデータベースと対話して、データの追加、削除、変更、検査、データベース設計を実現するために使用されます。 1）SQLは、ステートメントの選択、挿入、更新、削除を介してデータ操作を実行します。 2）データベースの設計と管理に作成、変更、ドロップステートメントを使用します。 3）複雑なクエリとデータ分析は、ビジネス上の意思決定効率を改善するためにSQLを通じて実装されます。

初心者向けのMySQL：データベース管理を開始しますApr 18, 2025 am 12:10 AM

MySQLの基本操作には、データベース、テーブルの作成、およびSQLを使用してデータのCRUD操作を実行することが含まれます。 1.データベースの作成：createdatabasemy_first_db; 2。テーブルの作成：createTableBooks（idintauto_incrementprimarykey、titlevarchary（100）notnull、authorvarchar（100）notnull、published_yearint）; 3.データの挿入：InsertIntoBooks（タイトル、著者、公開_year）VA

MySQLの役割：WebアプリケーションのデータベースApr 17, 2025 am 12:23 AM

WebアプリケーションにおけるMySQLの主な役割は、データを保存および管理することです。 1.MYSQLは、ユーザー情報、製品カタログ、トランザクションレコード、その他のデータを効率的に処理します。 2。SQLクエリを介して、開発者はデータベースから情報を抽出して動的なコンテンツを生成できます。 3.MYSQLは、クライアントサーバーモデルに基づいて機能し、許容可能なクエリ速度を確保します。

MySQL：最初のデータベースを構築しますApr 17, 2025 am 12:22 AM

MySQLデータベースを構築する手順には次のものがあります。1。データベースとテーブルの作成、2。データの挿入、および3。クエリを実行します。まず、createdAtabaseおよびcreateTableステートメントを使用してデータベースとテーブルを作成し、InsertINTOステートメントを使用してデータを挿入し、最後にSelectステートメントを使用してデータを照会します。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。