如何從大型 PostgreSQL 表中有效地選擇隨機行？-mysql教程-PHP中文網

首頁

資料庫

mysql教程

如何從大型 PostgreSQL 表中有效地選擇隨機行？

Linda Hamilton

Jan 21, 2025 am 05:46 AM

How to Efficiently Select Random Rows from a Large PostgreSQL Table?

從大型PostgreSQL表中選擇隨機行

處理大型資料集時，選擇隨機行可能是一項計算密集型任務。本文探討了從包含約 5 億行的表中檢索隨機行的各種方法，並討論了它們的性能和準確性。

方法一：使用 RANDOM() 和 LIMIT

第一種方法包括使用 RANDOM() 函數產生隨機數，然後使用 LIMIT 子句過濾結果以取得所需數量的行。

SELECT * FROM table WHERE RANDOM() < 0.000002 LIMIT 1000;

這種方法的優點是易於實現，但對於大型表來說效率可能很低。由於使用了 LIMIT 子句，資料庫必須掃描表格的全部行才能挑選隨機行並丟棄其餘行。

方法二：使用 ORDER BY RANDOM() 和 LIMIT

另一種方法是先按 RANDOM() 函數對行進行排序，然後使用 LIMIT 子句取得隨機行。

SELECT * FROM table ORDER BY RANDOM() LIMIT 1000;

這種方法與第一種方法類似，但排序保證更有效地選擇隨機行。它減少了所需的掃描次數，使其成為大型表的更好選擇。但是，對於行數極多的表，它仍然不是最佳選擇。

高效方法：使用數字 ID 欄位和索引

對於具有數字 ID 列且間隙較少的表，可以使用更有效的方法。這涉及在 ID 範圍內產生隨機數字並將其用於與表連接。

WITH params AS (
   SELECT 1 AS min_id,              -- 最小 ID <= 当前最小 ID
        5100000 AS id_span             -- 四舍五入。(max_id - min_id + buffer)
    )
SELECT *
FROM  (
   SELECT p.min_id + trunc(random() * p.id_span)::integer AS id
   FROM   params p, generate_series(1, 1100) g  -- 1000 + buffer
   GROUP  BY 1                        -- 去除重复项
) r
JOIN   table USING (id)
LIMIT  1000;

這種方法利用索引存取來顯著減少所需的掃描次數。它非常適合具有大量行且 ID 列中間隙較少的表。

考慮因素與建議

選擇隨機行的最佳方法取決於特定的表特徵和性能要求。對於小型表，RANDOM() 或 ORDER BY RANDOM() 方法可能就足夠了。但是，對於具有數字 ID 列且間隙較少的大型表，建議使用上述最佳化方法以獲得最佳效能。

要注意的是，由於電腦中偽隨機數產生的性質，這些方法都不能保證真正的隨機性。但是，它們提供了一種從大型表中以合理的效率和準確性獲取隨機行樣本的實用方法。

以上是如何從大型 PostgreSQL 表中有效地選擇隨機行？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

您可以使用哪些工具來監視MySQL性能？Apr 23, 2025 am 12:21 AM

如何有效監控MySQL性能？使用mysqladmin、SHOWGLOBALSTATUS、PerconaMonitoringandManagement(PMM)和MySQLEnterpriseMonitor等工具。 1.使用mysqladmin查看連接數。 2.用SHOWGLOBALSTATUS查看查詢數。 3.PMM提供詳細性能數據和圖形化界面。 4.MySQLEnterpriseMonitor提供豐富的監控功能和報警機制。

MySQL與SQL Server有何不同？Apr 23, 2025 am 12:20 AM

MySQL和SQLServer的区别在于：1)MySQL是开源的，适用于Web和嵌入式系统，2)SQLServer是微软的商业产品，适用于企业级应用。两者在存储引擎、性能优化和应用场景上有显著差异，选择时需考虑项目规模和未来扩展性。

在哪些情況下，您可以選擇SQL Server而不是MySQL？Apr 23, 2025 am 12:20 AM

在需要高可用性、高級安全性和良好集成性的企業級應用場景下，應選擇SQLServer而不是MySQL。 1)SQLServer提供企業級功能，如高可用性和高級安全性。 2)它與微軟生態系統如VisualStudio和PowerBI緊密集成。 3)SQLServer在性能優化方面表現出色，支持內存優化表和列存儲索引。

MySQL如何處理角色集和碰撞？Apr 23, 2025 am 12:19 AM

mySqlManagesCharacterSetsetSandCollationsyutusututf-8asthEdeFault，允許ConfigurationAtdataBase，table和columnlevels，AndrequiringCarefullageLignmentToavoidMismatches.1）setDefeaultCharactersetTercharactersetEtCollacterSeteTandColletationForAdataBase.2）conformentcollecharactersettersetertersetcollatertersetcollationcollation

MySQL中有什麼觸發器？Apr 23, 2025 am 12:11 AM

MySQL觸發器是與表相關聯的自動執行的存儲過程，用於在特定數據操作時執行一系列操作。 1）觸發器定義與作用：用於數據校驗、日誌記錄等。 2）工作原理：分為BEFORE和AFTER，支持行級觸發。 3）使用示例：可用於記錄薪資變更或更新庫存。 4）調試技巧：使用SHOWTRIGGERS和SHOWCREATETRIGGER命令。 5）性能優化：避免複雜操作，使用索引，管理事務。

您如何在MySQL中創建和管理用戶帳戶？Apr 22, 2025 pm 06:05 PM

在MySQL中創建和管理用戶賬戶的步驟如下：1.創建用戶：使用CREATEUSER'newuser'@'localhost'IDENTIFIEDBY'password';2.分配權限：使用GRANTSELECT,INSERT,UPDATEONmydatabase.TO'newuser'@'localhost';3.修正權限錯誤：使用REVOKEALLPRIVILEGESONmydatabase.FROM'newuser'@'localhost';然後重新分配權限；4.優化權限：使用SHOWGRA

MySQL與Oracle有何不同？Apr 22, 2025 pm 05:57 PM

MySQL適合快速開發和中小型應用，Oracle適合大型企業和高可用性需求。 1）MySQL開源、易用，適用於Web應用和中小型企業。 2）Oracle功能強大，適合大型企業和政府機構。 3）MySQL支持多種存儲引擎，Oracle提供豐富的企業級功能。

與其他關係數據庫相比，使用MySQL的缺點是什麼？Apr 22, 2025 pm 05:49 PM

MySQL相比其他關係型數據庫的劣勢包括：1.性能問題：在處理大規模數據時可能遇到瓶頸，PostgreSQL在復雜查詢和大數據處理上表現更優。 2.擴展性：水平擴展能力不如GoogleSpanner和AmazonAurora。 3.功能限制：在高級功能上不如PostgreSQL和Oracle，某些功能需要更多自定義代碼和維護。

See all articles