>데이터 베이스 >MySQL 튜토리얼 >대규모 MySQL 데이터베이스에서 무작위 샘플을 효율적으로 쿼리하려면 어떻게 해야 합니까?

대규모 MySQL 데이터베이스에서 무작위 샘플을 효율적으로 쿼리하려면 어떻게 해야 합니까?

Linda Hamilton
Linda Hamilton원래의
2025-01-05 14:50:42455검색

How Can I Efficiently Query a Random Sample from a Large MySQL Database?

MySQL 데이터베이스에서 효율적으로 무작위 샘플 쿼리

초기 접근 방식 및 제한 사항:

SELECT * FROM table ORDER BY를 사용하여 무작위 표본을 생성하는 간단한 방법 RAND() LIMIT 10000은 대형 테이블로 인해 성능 병목 현상이 발생합니다. 이 접근 방식은 전체 테이블을 정렬해야 하기 때문에 계산 집약적이므로 수십만 개의 행이 있는 테이블에는 실용적이지 않습니다.

최적화된 샘플링 기술:

An 효율적인 대안은 다음 쿼리를 활용하는 것입니다.

SELECT * FROM table WHERE rand() <= .3

이 쿼리는 다음을 사용합니다. 원칙:

  • 난수 생성: rand() 함수는 각 행에 대해 0과 1 사이의 난수를 생성합니다.
  • 조건 선택: 그런 다음 각 행을 평가하여 난수가 다음보다 작거나 같은지 여부에 따라 샘플에 포함되어야 하는지 결정합니다. 0.3.

이 접근 방식의 장점:

  • 정렬이 필요하지 않으므로 O(n)입니다.
  • MySQL의 난수 생성 메커니즘은 값의 균일한 분포를 보장합니다.
  • By 대조적으로 ORDER BY RAND() 접근 방식은 O(n lg n)이므로 대규모 데이터 세트의 경우 상당히 느려집니다.

위 내용은 대규모 MySQL 데이터베이스에서 무작위 샘플을 효율적으로 쿼리하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.