>데이터 베이스 >MySQL 튜토리얼 >MySQL에서 단순 무작위 샘플링을 효율적으로 수행하는 방법은 무엇입니까?

MySQL에서 단순 무작위 샘플링을 효율적으로 수행하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2025-01-05 16:03:43528검색

How to Efficiently Perform Simple Random Sampling in MySQL?

MySQL의 효율적인 단순 무작위 샘플링

많은 애플리케이션에는 대규모 데이터베이스 테이블에서 단순 무작위 샘플을 추출하는 기능이 필요합니다. 그러나 겉보기에 직관적인 SELECT * FROM table ORDER BY RAND() LIMIT 10000 방법을 사용하면 수백만 개의 행이 있는 테이블의 경우 엄청나게 느려질 수 있습니다.

더 빠른 솔루션

보다 효율적인 접근 방식은 rand() 함수를 사용하여 각 행에 임의의 숫자를 할당한 다음 이를 기반으로 테이블을 필터링하는 것입니다. number:

SELECT * FROM table WHERE rand() <= 0.3

작동 방식

이 방법은 각 행에 대해 0과 1 사이의 난수를 생성합니다. 이 숫자가 0.3(30%)보다 작거나 같으면 해당 행이 샘플로 선택됩니다.

장점

  • O(n) 복잡도 , 정렬할 필요 없이
  • MySQL에 내장된 rand() 함수를 활용하여 효율적인 숫자 계산 세대

개선된 버전

효율성을 더욱 높이려면 원하는 샘플 크기의 2~5배로 행을 샘플링하고 그런 다음 결과를 원하는 크기로 자릅니다.

SELECT COUNT(*) FROM table; -- Use this to determine rand_low and rand_high

SELECT *
FROM table
WHERE frozen_rand BETWEEN %(rand_low)s AND %(rand_high)s
ORDER BY RAND() LIMIT 1000

이 방법은 인덱스 스캔을 사용하여 데이터를 정렬하기 전에 정리하여 큰 테이블에 적합합니다.

위 내용은 MySQL에서 단순 무작위 샘플링을 효율적으로 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.