首页 >数据库 >mysql教程 >如何从大型 MySQL 数据库中高效提取简单的随机样本？

如何从大型 MySQL 数据库中高效提取简单的随机样本？

How Can I Efficiently Extract a Simple Random Sample from a Large MySQL Database?

在 MySQL 中利用高效的简单随机采样

问题陈述：

从使用“显而易见”的方法（SELECT * FROM table ORDER BY）高效地大型 MySQL 数据库可能具有挑战性RAND() 限制 n)。这种方法效率低下的原因在于它对每一行使用 RAND() 并进行后续排序，导致资源密集型 O(n lg n) 复杂度。

高效解决方案：

要克服这个障碍，请考虑采用更有效的方法：

SELECT * FROM table WHERE RAND() <= 0.3

此解决方案优于“显而易见”的方法，因为它能够为每行生成 0 到 1 之间的随机数，然后根据概率阈值（本例中为 0.3）评估是否显示该行。

解释：

其他注意事项：

限制采样：为了确保样本具有所需的大小，请相应地调整概率阈值。例如，要从包含 200,000 行的表中获取 10,000 行的样本，请使用： SELECT * FROM table WHERE RAND()
索引优化： 如果您的数据是频繁更新，考虑在插入/更新时对 RAND() 结果建立索引以改进表演。

以上是如何从大型 MySQL 数据库中高效提取简单的随机样本？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

查看更多