Maison >Problème commun >Que signifie la méthode bootstrap ?

Que signifie la méthode bootstrap ?

藏色散人original: 2019-07-23 11:31:035463parcourir

Que signifie la méthode bootstrap

En statistiques, la méthode bootstrap est la méthode bootstrap (Méthode Bootstrap) , Bootstrapping ou méthode d'échantillonnage bootstrap) est un échantillonnage uniforme avec remplacement à partir d'un ensemble d'apprentissage donné, c'est-à-dire que chaque fois qu'un échantillon est sélectionné, il est également susceptible d'être à nouveau sélectionné et ajouté à nouveau à l'ensemble d'apprentissage.

La méthode d'auto-assistance a été publiée par Bradley Efron dans "Annals of Statistics" en 1979. Lorsque l'échantillon est issu de la population et peut être décrit par une distribution normale, sa distribution d'échantillonnage est une distribution normale mais lorsque l'échantillon est issu d'une population qui ne peut être décrite par une distribution normale, il est analysé par analyse asymptotique, bootstrap, etc. Utilisez un échantillonnage aléatoire avec remplacement. Pour les petits ensembles de données, le bootstrap fonctionne bien.

Méthode bootstrap .632

La méthode la plus couramment utilisée est la méthode bootstrap .632, en supposant que l'ensemble de données donné contient d échantillons. L'ensemble de données est échantillonné d fois avec remplacement, produisant un ensemble d'apprentissage de d échantillons. De cette manière, certains échantillons des échantillons de données d'origine sont susceptibles d'apparaître plusieurs fois dans l'ensemble d'échantillons. Les échantillons qui n'entrent pas dans l'ensemble d'apprentissage forment finalement l'ensemble de vérification (ensemble de test). Évidemment, la probabilité que chaque échantillon soit sélectionné est de 1/d, donc la probabilité de ne pas être sélectionné est de (1-1/d). La probabilité qu'un échantillon n'apparaisse pas dans l'ensemble d'apprentissage est la probabilité de ne pas être sélectionné d fois. , c'est-à-dire ( 1-1/d)d. Lorsque d s'approche de l'infini, cette probabilité s'approche de e-1 = 0,368, de sorte que les échantillons restant dans l'ensemble d'apprentissage représentent environ 63,2 % de l'ensemble de données d'origine.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：La complexité temporelle de l'algorithme estArticle suivant：La complexité temporelle de l'algorithme est

Articles Liés

Voir plus