ホームページ >よくある問題 >ブートストラップデータとは

ブートストラップデータとは

藏色散人
藏色散人オリジナル
2019-07-26 10:55:176310ブラウズ

ブートストラップデータとは

#ブートストラップ データとは何ですか?

ブートストラップ データは、置換を含む合計 N 個のサンプルから

n 個のサンプルをサンプリングすることを指します。 統計学におけるブートストラップ法 (ブートストラップ法、ブートストラップ法、またはブートストラップ サンプリング法) は、特定のトレーニング セットからの置換を伴う均一なサンプリングです。つまり、サンプルが選択されるたびに、そのサンプルは再度選択され、再びトレーニングセットに追加されました。

自助法は、1979 年にブラッドリー エフロンによって「統計年報」に発表されました。サンプルが母集団に由来しており、正規分布で記述できる場合、その標本分布は正規分布になりますが、サンプルが正規分布で記述できない母集団に由来している場合、漸近分析、ブートストラップ、等置換を伴うランダム サンプリングを使用します。小規模なデータセットの場合、ブートストラップはうまく機能します。

.632 ブートストラップ法

最も一般的に使用される方法は、指定されたデータ セットに d 個のサンプルが含まれていると仮定した場合の .632 ブートストラップ法です。データセットは置換を伴って d 回サンプリングされ、d 個のサンプルのトレーニング セットが生成されます。このように、元のデータ サンプル内の一部のサンプルは、サンプル セット内に複数回出現する可能性があります。トレーニング セットに含まれないサンプルは、最終的に検証セット (テスト セット) を形成します。

明らかに、各サンプルが選択される確率は 1/d であるため、選択されない確率は (1-1/d) になります。このように、サンプルがトレーニングに表示されない確率はd 回選択されていないことを意味し、選択される確率は (1-1/d)d です。 d が無限大に近づくと、この確率は e-1=0.368 に近づくため、トレーニング セットに残っているサンプルは元のデータ セットの約 63.2% を占めます。

以上がブートストラップデータとはの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。