如何從大型 PostgreSQL 表中有效地選擇隨機行？-mysql教程-PHP中文網

首頁

資料庫

mysql教程

如何從大型 PostgreSQL 表中有效地選擇隨機行？

Barbara Streisand

Jan 21, 2025 am 05:26 AM

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL隨機行選擇方法

處理包含數百萬甚至數十億筆記錄的大型表時，傳統的隨機行選擇方法效率低且速度緩慢。兩種常見方法分別是：

使用random()過濾:

  select * from table where random() < 0.001;

使用order by random()和limit:

  select * from table order by random() limit 1000;

然而，由於需要全表掃描或排序，這些方法對於行數較多的表並非最佳選擇，會導致效能瓶頸。

大型表的最佳化方法

對於以下類型的表，請考慮以下最佳化方法，其速度明顯更快：

具有少量或中等間隙的數值ID欄位（已建立索引以加快查找速度）
在選擇過程中沒有或只有最少的寫入操作

查詢：

WITH params AS (
  SELECT 1 AS min_id, -- 可选：自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围（最大ID - 最小ID + 缓冲）
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;

工作原理：

ID範圍估計：
- 如果不精確知道，則查詢表以估計ID列的最小值、最大值和總跨度（最大值 - 最小值）。
隨機ID產生：
- 在估計的ID範圍內產生一組不同的隨機數。
冗餘與重複消除：
- 將產生的數字分組以移除重複項，減少選擇缺失行或已選取行的可能性。
表格連接與限制：
- 使用ID欄位（必須建立索引）將隨機數與實際表連接。此高效連接檢索所選行的相應資料。
- 最後，應用限制以檢索所需的行數。

為什麼它速度快：

最小的索引使用：
- 查詢僅對ID列執行索引掃描，比全表掃描或排序作業快得多。
最佳化的隨機數產生：
- 產生的隨機數分佈在估計的ID範圍內，最大限度地減少了缺失或重疊行的可能性。
冗餘與重複消除：
- 將產生的數字分組可確保只選擇不同的行，從而減少了消除重複所需的額外過濾或連接。

其他選項：

處理間隙的遞迴CTE：
- 對於ID序列中存在間隙的表，請增加一個額外的CTE來處理這些間隙。
函數包裝器以供重複使用：
- 定義一個函數，該函數採用限制和間隙百分比作為參數，允許輕鬆配置並與不同的表重用。
任何表格的通用函數：
- 建立一個通用函數，該函數接受任何具有整數列的表作為參數。
物化視野以提高速度：
- 考慮基於最佳化查詢建立物化視圖，以便更快地檢索（準）隨機選擇的行。
PostgreSQL 9.5中的TABLE SAMPLE：
- 利用PostgreSQL的「TABLE SAMPLE SYSTEM」功能，實現更快但隨機性較低的行取樣方法，確保傳回精確的行數。但是，請記住，由於聚集效應，樣本可能不是完全隨機的。

以上是如何從大型 PostgreSQL 表中有效地選擇隨機行？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

MySQL中的存儲過程是什麼？May 01, 2025 am 12:27 AM

存儲過程是MySQL中的預編譯SQL語句集合，用於提高性能和簡化複雜操作。 1.提高性能：首次編譯後，後續調用無需重新編譯。 2.提高安全性：通過權限控制限制數據表訪問。 3.簡化複雜操作：將多條SQL語句組合，簡化應用層邏輯。

查詢緩存如何在MySQL中工作？May 01, 2025 am 12:26 AM

MySQL查詢緩存的工作原理是通過存儲SELECT查詢的結果，當相同查詢再次執行時，直接返回緩存結果。 1）查詢緩存提高數據庫讀取性能，通過哈希值查找緩存結果。 2）配置簡單，在MySQL配置文件中設置query_cache_type和query_cache_size。 3）使用SQL_NO_CACHE關鍵字可以禁用特定查詢的緩存。 4）在高頻更新環境中，查詢緩存可能導致性能瓶頸，需通過監控和調整參數優化使用。

與其他關係數據庫相比，使用MySQL的優點是什麼？May 01, 2025 am 12:18 AM

MySQL被廣泛應用於各種項目中的原因包括：1.高性能與可擴展性，支持多種存儲引擎；2.易於使用和維護，配置簡單且工具豐富；3.豐富的生態系統，吸引大量社區和第三方工具支持；4.跨平台支持，適用於多種操作系統。

您如何處理MySQL中的數據庫升級？Apr 30, 2025 am 12:28 AM

MySQL數據庫升級的步驟包括：1.備份數據庫，2.停止當前MySQL服務，3.安裝新版本MySQL，4.啟動新版本MySQL服務，5.恢復數據庫。升級過程需注意兼容性問題，並可使用高級工具如PerconaToolkit進行測試和優化。

您可以使用MySQL的不同備份策略是什麼？Apr 30, 2025 am 12:28 AM

MySQL備份策略包括邏輯備份、物理備份、增量備份、基於復制的備份和雲備份。 1.邏輯備份使用mysqldump導出數據庫結構和數據，適合小型數據庫和版本遷移。 2.物理備份通過複製數據文件，速度快且全面，但需數據庫一致性。 3.增量備份利用二進制日誌記錄變化，適用於大型數據庫。 4.基於復制的備份通過從服務器備份，減少對生產系統的影響。 5.雲備份如AmazonRDS提供自動化解決方案，但成本和控制需考慮。選擇策略時應考慮數據庫大小、停機容忍度、恢復時間和恢復點目標。

什麼是mySQL聚類？Apr 30, 2025 am 12:28 AM

MySQLclusteringenhancesdatabaserobustnessandscalabilitybydistributingdataacrossmultiplenodes.ItusestheNDBenginefordatareplicationandfaulttolerance,ensuringhighavailability.Setupinvolvesconfiguringmanagement,data,andSQLnodes,withcarefulmonitoringandpe

如何優化數據庫架構設計以在MySQL中的性能？Apr 30, 2025 am 12:27 AM

在MySQL中優化數據庫模式設計可通過以下步驟提升性能：1.索引優化：在常用查詢列上創建索引，平衡查詢和插入更新的開銷。 2.表結構優化：通過規範化或反規範化減少數據冗餘，提高訪問效率。 3.數據類型選擇：使用合適的數據類型，如INT替代VARCHAR，減少存儲空間。 4.分區和分錶：對於大數據量，使用分區和分錶分散數據，提升查詢和維護效率。

您如何優化MySQL性能？Apr 30, 2025 am 12:26 AM

tooptimizemysqlperformance，lofterTheSeSteps：1）inasemproperIndexingTospeedUpqueries，2）使用ExplaintplaintoAnalyzeandoptimizequeryPerformance，3）ActiveServerConfigurationStersLikeTlikeTlikeTlikeIkeLikeIkeIkeLikeIkeLikeIkeLikeIkeLikeNodb_buffer_pool_sizizeandmax_connections，4）

See all articles