Heim  >  Artikel  >  Was sind Bootstrap-Daten?

Was sind Bootstrap-Daten?

藏色散人
藏色散人Original
2019-07-26 10:55:176248Durchsuche

Was sind Bootstrap-Daten?

Was sind Bootstrap-Daten?

Bootstrap-Daten beziehen sich auf Sampling von n Samples von insgesamt N Samples mit Ersetzung.

In der Statistik ist die Bootstrap-Methode (Bootstrap-Methode, Bootstrapping oder Bootstrap-Sampling-Methode) eine einheitliche Stichprobe mit Ersetzung aus einem bestimmten Trainingssatz, das heißt, wann immer eine Stichprobe ausgewählt wird, kann sie erneut ausgewählt werden erneut zum Trainingssatz hinzugefügt.

Die Selbsthilfemethode wurde 1979 von Bradley Efron in „Annals of Statistics“ veröffentlicht. Wenn die Stichprobe aus einer Grundgesamtheit stammt und durch eine Normalverteilung beschrieben werden kann, ist ihre Stichprobenverteilung eine Normalverteilung. Wenn die Stichprobe jedoch aus einer Grundgesamtheit stammt, die nicht durch eine Normalverteilung beschrieben werden kann, wird sie durch asymptotische Analyse, Bootstrapping usw. analysiert. usw. Verwenden Sie eine Zufallsstichprobe mit Ersatz. Bei kleinen Datensätzen funktioniert Bootstrapping gut.

.632-Bootstrap-Methode

Am häufigsten wird die .632-Bootstrap-Methode verwendet, vorausgesetzt, dass der gegebene Datensatz d Proben enthält. Der Datensatz wird d-mal abgetastet und ersetzt, wodurch ein Trainingssatz mit d Stichproben entsteht. Auf diese Weise ist es wahrscheinlich, dass einige Stichproben in den ursprünglichen Datenproben mehrfach im Stichprobensatz auftauchen. Die Proben, die nicht in den Trainingssatz aufgenommen werden, bilden schließlich den Verifizierungssatz (Testsatz).

Offensichtlich beträgt die Wahrscheinlichkeit, dass jede Probe ausgewählt wird, 1/d, die Wahrscheinlichkeit, dass sie nicht ausgewählt wird, beträgt also (1-1/d). Auf diese Weise ist die Wahrscheinlichkeit, dass eine Probe nicht im Training erscheint Set ist, dass es nicht d-mal ausgewählt wurde. Die Auswahlwahrscheinlichkeit beträgt (1-1/d)d. Wenn d gegen unendlich geht, nähert sich diese Wahrscheinlichkeit e-1=0,368, sodass die im Trainingssatz verbleibenden Stichproben etwa 63,2 % des ursprünglichen Datensatzes ausmachen.

Das obige ist der detaillierte Inhalt vonWas sind Bootstrap-Daten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn