부트스트랩 데이터란 무엇인가요?
부트스트랩 데이터는 총 N개 샘플에서 대체하여 n개 샘플을 샘플링하는 것을 의미합니다.
통계에서 부트스트랩 방법(부트스트랩 방법, 부트스트랩핑 또는 부트스트랩 샘플링 방법)은 주어진 훈련 세트를 대체하여 균일하게 샘플링하는 것입니다. 즉, 샘플이 선택될 때마다 다시 선택될 가능성이 동일하고 훈련 세트에 다시 추가되었습니다.
자조법은 브래들리 에프론이 1979년 "통계연보"에 발표했습니다. 표본이 모집단에서 추출되고 정규 분포로 설명될 수 있는 경우 해당 샘플링 분포는 정규 분포이지만, 정규 분포로 설명할 수 없는 모집단에서 추출한 경우 점근 분석, 부트스트래핑, 등. 교체와 함께 무작위 샘플링을 사용합니다. 작은 데이터 세트의 경우 부트스트랩이 잘 작동합니다.
.632 부트스트랩 방법
가장 일반적으로 사용되는 방법은 주어진 데이터 세트에 d개의 샘플이 포함되어 있다고 가정하는 .632 부트스트랩 방법입니다. 데이터 세트는 교체를 통해 d번 샘플링되어 d개 샘플의 훈련 세트를 생성합니다. 이러한 방식으로 원본 데이터 샘플의 일부 샘플이 샘플 세트에 여러 번 나타날 가능성이 높습니다. 훈련 세트에 들어가지 않은 샘플은 결국 검증 세트(테스트 세트)를 형성합니다.
분명히 각 샘플이 선택될 확률은 1/d이므로 선택되지 않을 확률은 (1-1/d)입니다. 이런 식으로 샘플이 훈련 세트에 나타나지 않을 확률은 d번 선택되지 않습니다. 즉, (1-1/d)d입니다. d가 무한대에 가까워지면 이 확률은 e-1=0.368에 가까워지므로 훈련 세트에 남아 있는 샘플은 원래 데이터 세트의 약 63.2%를 차지합니다.
위 내용은 부트스트랩 데이터란?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!