부트스트래핑 알고리즘은 제한된 샘플 데이터를 사용하여 여러 번 다시 샘플링하여 상위 샘플의 분포를 나타내기에 충분한 새 샘플을 다시 설정하는 것을 의미합니다.
부트스트랩핑의 적용은 많은 통계적 가정을 기반으로 하기 때문에 샘플링의 정확성은 가정의 성립 여부에 영향을 미칩니다. (추천 학습: 부트스트랩 동영상 튜토리얼)
통계에서 부트스트래핑은 무작위 샘플링 재설정에 의존하는 모든 실험을 의미할 수 있습니다. 부트스트래핑을 사용하여 표본 추정치의 정확도를 계산할 수 있습니다. 샘플링의 경우 특정 통계(예: 평균)의 하나의 값만 계산할 수 있으며 평균 통계의 분포를 알 수 없습니다. 하지만 부트스트랩 방법(bootstrap method)을 통해 우리는 평균 통계의 대략적인 분포를 시뮬레이션할 수 있습니다. 배포를 통해 많은 작업을 수행할 수 있습니다(예: 파생된 결과를 사용하여 실제 전체 상황을 추론하는 등).
부트스트래핑 방법의 구현은 매우 간단합니다. 샘플 크기가 n이라고 가정합니다.
원래 샘플에 대체 샘플링이 있고 샘플이 n번 추출됩니다. 새로운 표본을 추출할 때마다 이 작업을 반복하여 많은 수의 새로운 표본을 형성하고 이를 통해 표본의 분포를 계산할 수 있습니다. 새로운 샘플의 수는 일반적으로 1000-10000입니다. 계산 비용이 적거나 정확도 요구 사항이 상대적으로 높은 경우 새 샘플 수를 늘리십시오.
장점: 간단하고 조작이 쉽습니다.
단점: 부트스트래핑 적용은 많은 통계적 가정을 기반으로 하기 때문에 가정의 확립 여부가 샘플링의 정확성에 영향을 미칩니다.
머신러닝에서 부트스트랩 방법은 대체를 통한 무작위 샘플링을 의미하며, 이는 모델이나 알고리즘이 그 안에 존재하는 편향, 분산 및 특징을 더 잘 이해할 수 있도록 하는 리샘플링입니다. 데이터 샘플링을 통해 리샘플링을 통해 다양한 편향을 포함하고 이를 전체적으로 포괄할 수 있습니다. 그림 1에 표시된 것처럼 각 표본 모집단은 서로 다른 부분을 가지며 서로 다릅니다. 그러면 이는 전체 평균, 표준 편차 및 데이터 세트의 기타 설명 측정값에 영향을 미칩니다. 결과적으로 더욱 강력한 모델을 개발할 수 있습니다.
부트스트래핑은 과적합 경향이 있는 소규모 데이터 세트에도 적합합니다.
Bootstrap을 사용하는 이유는 솔루션의 안정성을 테스트할 수 있기 때문입니다. 여러 샘플 데이터 세트를 사용하여 여러 모델을 테스트하면 견고성이 향상될 수 있습니다. 아마도 하나의 샘플 데이터 세트가 다른 데이터 세트보다 평균이 크거나 표준 편차가 다를 수 있습니다. 이 접근 방식을 사용하면 분산이 다른 데이터 세트를 사용하여 테스트되지 않고 과적합된 모델을 식별할 수 있습니다.
부트스트래핑을 사용하는 것이 점점 더 일반화되는 이유 중 하나는 컴퓨팅 성능의 증가입니다. 이전보다 더 많은 재배열과 리샘플링이 이루어졌습니다. 배깅과 부스팅 모두 부트스트래핑을 사용합니다
더 많은 부트스트랩 관련 기술 기사를 보려면부트스트랩 튜토리얼
칼럼을 방문하여 알아보세요!위 내용은 부트스트래핑이 뭐야?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!