집 >데이터 베이스 >MySQL 튜토리얼 >대규모 PostgreSQL 테이블에서 무작위 행을 효율적으로 선택하는 방법은 무엇입니까?
PostgreSQL 임의 행 선택 방법
기존의 무작위 행 선택 방법은 수백만 또는 수십억 개의 레코드가 포함된 대규모 테이블을 처리할 때 비효율적이고 속도가 느립니다. 두 가지 일반적인 방법은 다음과 같습니다.
random()
을 사용하여 필터링:
<code class="language-sql"> select * from table where random() < 0.001;</code>
order by random()
및 limit
사용:
<code class="language-sql"> select * from table order by random() limit 1000;</code>
그러나 전체 테이블 스캔이나 정렬이 필요하기 때문에 이러한 방법은 행 수가 많은 테이블에는 최선의 선택이 아니며 성능 병목 현상을 일으킬 수 있습니다.
대형 테이블의 최적화 방법
다음 유형의 테이블의 경우 훨씬 더 빠른 다음 최적화 방법을 고려하십시오.
쿼리:
<code class="language-sql">WITH params AS ( SELECT 1 AS min_id, -- 可选:自定义最小ID起始值 5100000 AS id_span -- 近似ID范围(最大ID - 最小ID + 缓冲) ) SELECT * FROM ( SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id FROM params p, generate_series(1, 1100) g GROUP BY 1 ) r INNER JOIN big ON r.id = big.id LIMIT 1000;</code>
작동 방식:
ID 범위 추정:
임의의 ID 생성:
중복 및 중복 제거:
테이블 조인 및 제한:
빠른 이유:
최소 인덱스 사용:
최적화된 난수 생성:
중복 및 중복 제거:
기타 옵션:
간격 처리를 위한 재귀 CTE:
재사용을 위한 함수 래퍼:
모든 테이블에 대한 범용 기능:
속도를 위한 뷰 구체화:
TABLE SAMPLE
:
TABLE SAMPLE SYSTEM
" 기능을 활용하여 더 빠르지만 무작위가 적은 행 샘플링 방법을 구현하여 정확한 수의 행이 반환되도록 합니다. 그러나 클러스터링 효과로 인해 표본이 완전히 무작위가 아닐 수도 있다는 점에 유의하세요. 위 내용은 대규모 PostgreSQL 테이블에서 무작위 행을 효율적으로 선택하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!