首頁 >資料庫 >mysql教程 >如何在MySQL中有效率地進行簡單隨機取樣?

如何在MySQL中有效率地進行簡單隨機取樣?

Patricia Arquette
Patricia Arquette原創
2025-01-05 16:03:43526瀏覽

How to Efficiently Perform Simple Random Sampling in MySQL?

MySQL 中的高效簡單隨機取樣

許多應用程式需要能夠從大型資料庫表中提取簡單隨機樣本。然而,對於具有數百萬行的表,使用看似直觀的方法 SELECT * FROM table ORDER BY RAND() LIMIT 10000 可能會非常緩慢。

更快的解

更有效的方法是使用 rand()函數為每一行分配一個隨機數,然後基於此過濾表number:

SELECT * FROM table WHERE rand() <= 0.3

工作原理

此方法為每行產生一個0 到1 之間的隨機數。如果該數字小於或等於 0.3 (30%),則選擇該行作為樣本。

優點

  • O(n) 複雜度,無需排序
  • 利用 MySQL 內建的 rand()函數實現高效數位產生

改進版本

為了提高效率,請考慮將行採樣到所需樣本大小的 2-5倍,並使用隨機數字對它們進行排序索引,然後將結果修剪到所需的大小:

SELECT COUNT(*) FROM table; -- Use this to determine rand_low and rand_high

SELECT *
FROM table
WHERE frozen_rand BETWEEN %(rand_low)s AND %(rand_high)s
ORDER BY RAND() LIMIT 1000

此方法使用索引掃描來減小結果的大小排序前的數據,使其適合大型表。

以上是如何在MySQL中有效率地進行簡單隨機取樣?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn