집 >데이터 베이스 >MySQL 튜토리얼 >MySQL에서 단순 무작위 샘플링을 효율적으로 수행하려면 어떻게 해야 합니까?
MySQL 데이터베이스의 효율적인 단순 무작위 샘플링
통계 분석이나 추가 처리를 위한 하위 샘플링을 위해 대규모 데이터베이스의 데이터 샘플링이 필요한 경우가 많습니다. 일반적으로 직면하는 문제 중 하나는 수백만 개의 행이 포함된 MySQL 데이터베이스에서 간단한 무작위 샘플을 선택하는 것입니다.
SELECT * FROM table ORDER BY RAND() LIMIT 10000의 순진한 접근 방식은 다음의 필요성으로 인해 상당한 성능 오버헤드가 있습니다. 전체 테이블을 정렬합니다. 테이블 크기가 증가함에 따라 이 접근 방식은 엄청나게 느려집니다.
효율적인 솔루션
보다 효율적인 접근 방식은 MySQL의 난수 생성 기능을 활용하는 것입니다. SELECT * FROM table WHERE rand() <= .3 쿼리는 간단한 솔루션을 제공합니다.
이 접근 방식에는 여러 가지 장점이 있습니다.
테이블의 더 큰 하위 집합( 예를 들어 원하는 샘플 크기의 2~5배), 삽입 또는 업데이트 시 임의의 열을 인덱싱한 다음 해당 인덱스를 필터링하면 샘플링을 더욱 최적화할 수 있습니다. 프로세스. 이 방법은 인덱스 스캔 성능의 이점을 제공하고 샘플 크기의 정밀도를 높일 수 있습니다.
요약하면 SELECT * FROM table WHERE rand() <= .3 쿼리는 효율적이고 정확한 추출 방법을 제공합니다. MySQL 테이블의 간단한 무작위 샘플입니다. 이 접근 방식은 수백만 개 이상의 행을 포함하는 데이터세트에 특히 적합합니다.
위 내용은 MySQL에서 단순 무작위 샘플링을 효율적으로 수행하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!