대규모 PostgreSQL 테이블에서 무작위 행을 효율적으로 선택하는 방법은 무엇입니까?-MySQL 튜토리얼-php.cn

집

데이터 베이스

MySQL 튜토리얼

대규모 PostgreSQL 테이블에서 무작위 행을 효율적으로 선택하는 방법은 무엇입니까?

Barbara Streisand

Jan 21, 2025 am 05:26 AM

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL 임의 행 선택 방법

기존의 무작위 행 선택 방법은 수백만 또는 수십억 개의 레코드가 포함된 대규모 테이블을 처리할 때 비효율적이고 속도가 느립니다. 두 가지 일반적인 방법은 다음과 같습니다.

random()을 사용하여 필터링:

  select * from table where random() < 0.001;

order by random() 및 limit 사용:

  select * from table order by random() limit 1000;

그러나 전체 테이블 스캔이나 정렬이 필요하기 때문에 이러한 방법은 행 수가 많은 테이블에는 최선의 선택이 아니며 성능 병목 현상을 일으킬 수 있습니다.

대형 테이블의 최적화 방법

다음 유형의 테이블의 경우 훨씬 더 빠른 다음 최적화 방법을 고려하십시오.

작은 또는 중간 간격의 숫자 ID 열(더 빠른 조회를 위해 색인화됨)
선택 중 쓰기 작업이 없거나 최소한입니다

쿼리:

WITH params AS (
  SELECT 1 AS min_id, -- 可选：自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围（最大ID - 最小ID + 缓冲）
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;

작동 방식:

ID 범위 추정:
- 정확히 알 수 없는 경우 테이블을 쿼리하여 ID 열의 최소, 최대 및 전체 범위(최대 - 최소)를 추정하세요.
임의의 ID 생성:
- 예상 ID 범위 내에서 다른 난수 세트를 생성합니다.
중복 및 중복 제거:
- 생성된 번호를 그룹화하여 중복된 번호를 제거하면 누락된 행이나 이미 선택한 행을 선택할 가능성이 줄어듭니다.
테이블 조인 및 제한:
- ID 열을 사용하여 실제 테이블과 난수를 결합합니다(인덱싱해야 함). 이 효율적인 조인은 선택한 행에 해당하는 데이터를 검색합니다.
- 마지막으로 제한을 적용하여 필요한 행 수를 검색합니다.

빠른 이유:

최소 인덱스 사용:
- 쿼리는 ID 열에 대해서만 인덱스 스캔을 수행하며 이는 전체 테이블 스캔이나 정렬 작업보다 훨씬 빠릅니다.
최적화된 난수 생성:
- 생성된 난수는 추정 ID 범위에 걸쳐 분포되어 행이 누락되거나 겹칠 가능성을 최소화합니다.
중복 및 중복 제거:
- 생성된 숫자를 그룹화하면 고유한 행만 선택되므로 중복을 제거하기 위해 추가 필터링이나 결합이 필요하지 않습니다.

기타 옵션:

간격 처리를 위한 재귀 CTE:
- ID 순서에 공백이 있는 테이블의 경우 추가 CTE를 추가하여 이러한 공백을 처리하세요.
재사용을 위한 함수 래퍼:
- 한도 및 간격 비율을 매개변수로 사용하는 함수를 정의하여 다른 테이블에서 쉽게 구성하고 재사용할 수 있도록 합니다.
모든 테이블에 대한 범용 기능:
- 정수 열이 있는 모든 테이블을 매개변수로 받아들이는 일반 함수를 만듭니다.
속도를 위한 뷰 구체화:
- 임의로 선택된 (준) 행을 더 빠르게 검색하려면 최적화된 쿼리를 기반으로 구체화된 뷰를 생성하는 것이 좋습니다.
PostgreSQL 9.5의
TABLE SAMPLE:
- PostgreSQL의 "TABLE SAMPLE SYSTEM" 기능을 활용하여 더 빠르지만 무작위가 적은 행 샘플링 방법을 구현하여 정확한 수의 행이 반환되도록 합니다. 그러나 클러스터링 효과로 인해 표본이 완전히 무작위가 아닐 수도 있다는 점에 유의하세요.

위 내용은 대규모 PostgreSQL 테이블에서 무작위 행을 효율적으로 선택하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

MySQL에 저장된 절차는 무엇입니까?May 01, 2025 am 12:27 AM

저장된 절차는 성능을 향상시키고 복잡한 작업을 단순화하기 위해 MySQL에서 사전 컴파일 된 SQL 문입니다. 1. 성능 향상 : 첫 번째 편집 후 후속 통화를 다시 컴파일 할 필요가 없습니다. 2. 보안 향상 : 권한 제어를 통해 데이터 테이블 액세스를 제한합니다. 3. 복잡한 작업 단순화 : 여러 SQL 문을 결합하여 응용 프로그램 계층 로직을 단순화합니다.

쿼리 캐싱은 MySQL에서 어떻게 작동합니까?May 01, 2025 am 12:26 AM

MySQL 쿼리 캐시의 작동 원리는 선택 쿼리 결과를 저장하는 것이며 동일한 쿼리가 다시 실행되면 캐시 된 결과가 직접 반환됩니다. 1) 쿼리 캐시는 데이터베이스 읽기 성능을 향상시키고 해시 값을 통해 캐시 된 결과를 찾습니다. 2) MySQL 구성 파일에서 간단한 구성, query_cache_type 및 query_cache_size를 설정합니다. 3) SQL_NO_CACHE 키워드를 사용하여 특정 쿼리의 캐시를 비활성화하십시오. 4) 고주파 업데이트 환경에서 쿼리 캐시는 성능 병목 현상을 유발할 수 있으며 매개 변수의 모니터링 및 조정을 통해 사용하기 위해 최적화해야합니다.

다른 관계형 데이터베이스를 통해 MySQL을 사용하면 어떤 장점이 있습니까?May 01, 2025 am 12:18 AM

MySQL이 다양한 프로젝트에서 널리 사용되는 이유에는 다음이 포함됩니다. 1. 고성능 및 확장 성, 여러 스토리지 엔진을 지원합니다. 2. 사용 및 유지 관리, 간단한 구성 및 풍부한 도구; 3. 많은 지역 사회 및 타사 도구 지원을 유치하는 풍부한 생태계; 4. 여러 운영 체제에 적합한 크로스 플랫폼 지원.

MySQL에서 데이터베이스 업그레이드를 어떻게 처리합니까?Apr 30, 2025 am 12:28 AM

MySQL 데이터베이스를 업그레이드하는 단계에는 다음이 포함됩니다. 1. 데이터베이스 백업, 2. 현재 MySQL 서비스 중지, 3. 새 버전의 MySQL 설치, 4. 새 버전의 MySQL 서비스 시작, 5. 데이터베이스 복구. 업그레이드 프로세스 중에 호환성 문제가 필요하며 Perconatoolkit과 같은 고급 도구를 테스트 및 최적화에 사용할 수 있습니다.

MySQL에 사용할 수있는 다른 백업 전략은 무엇입니까?Apr 30, 2025 am 12:28 AM

MySQL 백업 정책에는 논리 백업, 물리적 백업, 증분 백업, 복제 기반 백업 및 클라우드 백업이 포함됩니다. 1. 논리 백업은 MySQLDump를 사용하여 데이터베이스 구조 및 데이터를 내보내며 소규모 데이터베이스 및 버전 마이그레이션에 적합합니다. 2. 물리적 백업은 데이터 파일을 복사하여 빠르고 포괄적이지만 데이터베이스 일관성이 필요합니다. 3. 증분 백업은 이진 로깅을 사용하여 변경 사항을 기록합니다. 이는 큰 데이터베이스에 적합합니다. 4. 복제 기반 백업은 서버에서 백업하여 생산 시스템에 미치는 영향을 줄입니다. 5. AmazonRDS와 같은 클라우드 백업은 자동화 솔루션을 제공하지만 비용과 제어를 고려해야합니다. 정책을 선택할 때 데이터베이스 크기, 가동 중지 시간 허용 오차, 복구 시간 및 복구 지점 목표를 고려해야합니다.

MySQL 클러스터링이란 무엇입니까?Apr 30, 2025 am 12:28 AM

mysqlclusteringenhancesdatabaserobustness andscalabilitydaturedingdataacrossmultiplenodes.itusesthendbenginefordatareplicationandfaulttolerance, highavailability를 보장합니다

MySQL의 성능을 위해 데이터베이스 스키마 설계를 어떻게 최적화합니까?Apr 30, 2025 am 12:27 AM

MySQL에서 데이터베이스 스키마 설계 최적화는 다음 단계를 통해 성능을 향상시킬 수 있습니다. 1. 인덱스 최적화 : 공통 쿼리 열에서 인덱스 생성, 쿼리의 오버 헤드 균형 및 업데이트 삽입. 2. 표 구조 최적화 : 정규화 또는 정상화를 통한 데이터 중복성을 줄이고 액세스 효율을 향상시킵니다. 3. 데이터 유형 선택 : 스토리지 공간을 줄이기 위해 Varchar 대신 Int와 같은 적절한 데이터 유형을 사용하십시오. 4. 분할 및 하위 테이블 : 대량 데이터 볼륨의 경우 파티션 및 하위 테이블을 사용하여 데이터를 분산시켜 쿼리 및 유지 보수 효율성을 향상시킵니다.

MySQL 성능을 어떻게 최적화 할 수 있습니까?Apr 30, 2025 am 12:26 AM

tooptimizemysqlperformance, followthesesteps : 1) 구현 properIndexingToSpeedUpqueries, 2) useExplaintoAnalyzeanDoptimizeQueryPerformance, 3) AdvertServerConfigUrationSettingstingslikeInnodb_buffer_pool_sizeandmax_connections, 4) uspartOflEtOflEtOflestoI

See all articles