搜尋
首頁資料庫mysql教程如何從大型 PostgreSQL 表中有效地選擇隨機行?

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL隨機行選擇方法

處理包含數百萬甚至數十億筆記錄的大型表時,傳統的隨機行選擇方法效率低且速度緩慢。兩種常見方法分別是:

  • 使用random()過濾:

      select * from table where random() < 0.001;
  • 使用order by random()limit:

      select * from table order by random() limit 1000;

然而,由於需要全表掃描或排序,這些方法對於行數較多的表並非最佳選擇,會導致效能瓶頸。

大型表的最佳化方法

對於以下類型的表,請考慮以下最佳化方法,其速度明顯更快:

  • 具有少量或中等間隙的數值ID欄位(已建立索引以加快查找速度)
  • 在選擇過程中沒有或只有最少的寫入操作

查詢:

WITH params AS (
  SELECT 1 AS min_id, -- 可选:自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围(最大ID - 最小ID + 缓冲)
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;

工作原理:

  • ID範圍估計:

    • 如果不精確知道,則查詢表以估計ID列的最小值、最大值和總跨度(最大值 - 最小值)。
  • 隨機ID產生:

    • 在估計的ID範圍內產生一組不同的隨機數。
  • 冗餘與重複消除:

    • 將產生的數字分組以移除重複項,減少選擇缺失行或已選取行的可能性。
  • 表格連接與限制:

    • 使用ID欄位(必須建立索引)將隨機數與實際表連接。此高效連接檢索所選行的相應資料。
    • 最後,應用限制以檢索所需的行數。

為什麼它速度快:

  • 最小的索引使用:

    • 查詢僅對ID列執行索引掃描,比全表掃描或排序作業快得多。
  • 最佳化的隨機數產生:

    • 產生的隨機數分佈在估計的ID範圍內,最大限度地減少了缺失或重疊行的可能性。
  • 冗餘與重複消除:

    • 將產生的數字分組可確保只選擇不同的行,從而減少了消除重複所需的額外過濾或連接。

其他選項:

  • 處理間隙的遞迴CTE:

    • 對於ID序列中存在間隙的表,請增加一個額外的CTE來處理這些間隙。
  • 函數包裝器以供重複使用:

    • 定義一個函數,該函數採用限制和間隙百分比作為參數,允許輕鬆配置並與不同的表重用。
  • 任何表格的通用函數:

    • 建立一個通用函數,該函數接受任何具有整數列的表作為參數。
  • 物化視野以提高速度:

    • 考慮基於最佳化查詢建立物化視圖,以便更快地檢索(準)隨機選擇的行。
  • PostgreSQL 9.5中的TABLE SAMPLE

    • 利用PostgreSQL的「TABLE SAMPLE SYSTEM」功能,實現更快但隨機性較低的行取樣方法,確保傳回精確的行數。但是,請記住,由於聚集效應,樣本可能不是完全隨機的。

以上是如何從大型 PostgreSQL 表中有效地選擇隨機行?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何使用Alter Table語句在MySQL中更改表?如何使用Alter Table語句在MySQL中更改表?Mar 19, 2025 pm 03:51 PM

本文討論了使用MySQL的Alter Table語句修改表,包括添加/刪除列,重命名表/列以及更改列數據類型。

如何為MySQL連接配置SSL/TLS加密?如何為MySQL連接配置SSL/TLS加密?Mar 18, 2025 pm 12:01 PM

文章討論了為MySQL配置SSL/TLS加密,包括證書生成和驗證。主要問題是使用自簽名證書的安全含義。[角色計數:159]

您如何處理MySQL中的大型數據集?您如何處理MySQL中的大型數據集?Mar 21, 2025 pm 12:15 PM

文章討論了處理MySQL中大型數據集的策略,包括分區,碎片,索引和查詢優化。

哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什麼?哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什麼?Mar 21, 2025 pm 06:28 PM

文章討論了流行的MySQL GUI工具,例如MySQL Workbench和PhpMyAdmin,比較了它們對初學者和高級用戶的功能和適合性。[159個字符]

如何使用Drop Table語句將表放入MySQL中?如何使用Drop Table語句將表放入MySQL中?Mar 19, 2025 pm 03:52 PM

本文討論了使用Drop Table語句在MySQL中放下表,並強調了預防措施和風險。它強調,沒有備份,該動作是不可逆轉的,詳細介紹了恢復方法和潛在的生產環境危害。

如何在JSON列上創建索引?如何在JSON列上創建索引?Mar 21, 2025 pm 12:13 PM

本文討論了在PostgreSQL,MySQL和MongoDB等各個數據庫中的JSON列上創建索引,以增強查詢性能。它解釋了索引特定的JSON路徑的語法和好處,並列出了支持的數據庫系統。

您如何用外國鑰匙代表關係?您如何用外國鑰匙代表關係?Mar 19, 2025 pm 03:48 PM

文章討論了使用外國密鑰來代表數據庫中的關係,重點是最佳實踐,數據完整性和避免的常見陷阱。

如何保護MySQL免受常見漏洞(SQL注入,蠻力攻擊)?如何保護MySQL免受常見漏洞(SQL注入,蠻力攻擊)?Mar 18, 2025 pm 12:00 PM

文章討論了使用準備好的語句,輸入驗證和強密碼策略確保針對SQL注入和蠻力攻擊的MySQL。(159個字符)

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。