搜索
首页数据库mysql教程如何从大型 PostgreSQL 表中高效地选择随机行?

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL随机行选择方法

处理包含数百万甚至数十亿条记录的大型表时,传统的随机行选择方法效率低下且速度缓慢。两种常见方法是:

  • 使用random()过滤:

      select * from table where random() < 0.001;
  • 使用order by random()limit:

      select * from table order by random() limit 1000;

然而,由于需要全表扫描或排序,这些方法对于行数较多的表并非最佳选择,会导致性能瓶颈。

大型表的优化方法

对于以下类型的表,请考虑以下优化方法,其速度明显更快:

  • 具有少量或中等间隙的数值ID列(已建立索引以加快查找速度)
  • 在选择过程中没有或只有最少的写入操作

查询:

WITH params AS (
  SELECT 1 AS min_id, -- 可选:自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围(最大ID - 最小ID + 缓冲)
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;

工作原理:

  • ID范围估计:

    • 如果不精确知道,则查询表以估计ID列的最小值、最大值和总跨度(最大值 - 最小值)。
  • 随机ID生成:

    • 在估计的ID范围内生成一组不同的随机数。
  • 冗余和重复消除:

    • 对生成的数字进行分组以去除重复项,减少选择缺失行或已选择行的可能性。
  • 表连接和限制:

    • 使用ID列(必须建立索引)将随机数与实际表连接。此高效连接检索所选行的相应数据。
    • 最后,应用限制以检索所需的行数。

为什么它速度快:

  • 最小的索引使用:

    • 查询仅对ID列执行索引扫描,比全表扫描或排序操作快得多。
  • 优化的随机数生成:

    • 生成的随机数分布在估计的ID范围内,最大限度地减少了缺失或重叠行的可能性。
  • 冗余和重复消除:

    • 对生成的数字进行分组可确保只选择不同的行,从而减少了消除重复项所需的额外过滤或连接。

其他选项:

  • 处理间隙的递归CTE:

    • 对于ID序列中存在间隙的表,请添加一个额外的CTE来处理这些间隙。
  • 函数包装器以供重用:

    • 定义一个函数,该函数采用限制和间隙百分比作为参数,允许轻松配置并与不同的表重用。
  • 任何表的通用函数:

    • 创建一个通用函数,该函数接受任何具有整数列的表作为参数。
  • 物化视图以提高速度:

    • 考虑基于优化查询创建物化视图,以便更快地检索(准)随机选择的行。
  • PostgreSQL 9.5中的TABLE SAMPLE

    • 利用PostgreSQL的“TABLE SAMPLE SYSTEM”功能,实现更快但随机性较低的行采样方法,确保返回精确的行数。但是,请记住,由于聚类效应,样本可能不是完全随机的。

以上是如何从大型 PostgreSQL 表中高效地选择随机行?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
mysql无法打开共享库怎么解决mysql无法打开共享库怎么解决Mar 04, 2025 pm 04:01 PM

本文介绍了MySQL的“无法打开共享库”错误。 该问题源于MySQL无法找到必要的共享库(.SO/.DLL文件)。解决方案涉及通过系统软件包M验证库安装

减少在Docker中使用MySQL内存的使用减少在Docker中使用MySQL内存的使用Mar 04, 2025 pm 03:52 PM

本文探讨了Docker中的优化MySQL内存使用量。 它讨论了监视技术(Docker统计,性能架构,外部工具)和配置策略。 其中包括Docker内存限制,交换和cgroups

如何使用Alter Table语句在MySQL中更改表?如何使用Alter Table语句在MySQL中更改表?Mar 19, 2025 pm 03:51 PM

本文讨论了使用MySQL的Alter Table语句修改表,包括添加/删除列,重命名表/列以及更改列数据类型。

在 Linux 中运行 MySQl(有/没有带有 phpmyadmin 的 podman 容器)在 Linux 中运行 MySQl(有/没有带有 phpmyadmin 的 podman 容器)Mar 04, 2025 pm 03:54 PM

本文比较使用/不使用PhpMyAdmin的Podman容器直接在Linux上安装MySQL。 它详细介绍了每种方法的安装步骤,强调了Podman在孤立,可移植性和可重复性方面的优势,还

什么是 SQLite?全面概述什么是 SQLite?全面概述Mar 04, 2025 pm 03:55 PM

本文提供了SQLite的全面概述,SQLite是一个独立的,无服务器的关系数据库。 它详细介绍了SQLite的优势(简单,可移植性,易用性)和缺点(并发限制,可伸缩性挑战)。 c

如何为MySQL连接配置SSL/TLS加密?如何为MySQL连接配置SSL/TLS加密?Mar 18, 2025 pm 12:01 PM

文章讨论了为MySQL配置SSL/TLS加密,包括证书生成和验证。主要问题是使用自签名证书的安全含义。[角色计数:159]

在MacOS上运行多个MySQL版本:逐步指南在MacOS上运行多个MySQL版本:逐步指南Mar 04, 2025 pm 03:49 PM

本指南展示了使用自制在MacOS上安装和管理多个MySQL版本。 它强调使用自制装置隔离安装,以防止冲突。 本文详细详细介绍了安装,起始/停止服务和最佳PRA

哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什么?哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什么?Mar 21, 2025 pm 06:28 PM

文章讨论了流行的MySQL GUI工具,例如MySQL Workbench和PhpMyAdmin,比较了它们对初学者和高级用户的功能和适合性。[159个字符]

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
1 个月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能