Der Bootstrapping-Algorithmus bezieht sich auf die Verwendung begrenzter Stichprobendaten, um mehrmals eine neue Stichprobe zu erstellen und so eine neue Stichprobe zu erstellen, die ausreicht, um die Verteilung der übergeordneten Stichprobe darzustellen.
Die Anwendung von Bootstrapping basiert auf vielen statistischen Annahmen, sodass die Genauigkeit der Stichprobe Einfluss darauf hat, ob die Annahmen begründet sind oder nicht. (Empfohlenes Lernen: Bootstrap-Video-Tutorial)
In der Statistik kann sich Bootstrapping auf alle Experimente beziehen, die auf zurückgesetzten Zufallsstichproben basieren. Bootstrapping kann verwendet werden, um die Genauigkeit von Stichprobenschätzungen zu berechnen. Bei einer Stichprobe können wir nur den Wert einer bestimmten Statistik berechnen (z. B. den Mittelwert) und nicht die Verteilung der Durchschnittsstatistik kennen. Aber durch die Bootstrap-Methode (Bootstrap-Methode) können wir die ungefähre Verteilung der Mittelwertstatistik simulieren. Mit der Verteilung können viele Dinge getan werden (z. B. die von Ihnen abgeleiteten Ergebnisse nutzen, um auf die tatsächliche Gesamtsituation zu schließen).
Die Implementierung der Bootstrapping-Methode ist sehr einfach. Angenommen, die Stichprobengröße beträgt n:
Die ursprüngliche Stichprobe enthält eine Stichprobe mit Ersetzung und die Stichprobe wird n-mal gezogen. Jedes Mal, wenn eine neue Stichprobe gezogen wird, wird der Vorgang wiederholt, um viele neue Stichproben zu bilden, anhand derer eine Verteilung der Stichprobe berechnet werden kann. Die Anzahl neuer Proben beträgt normalerweise 1000-10000. Wenn der Rechenaufwand gering ist oder die Genauigkeitsanforderungen relativ hoch sind, erhöhen Sie die Anzahl neuer Proben.
Vorteile: Einfach und leicht zu bedienen.
Nachteile: Die Anwendung von Bootstrapping basiert auf vielen statistischen Annahmen. Unabhängig davon, ob die Annahmen begründet sind oder nicht, wirkt sich dies auf die Genauigkeit der Stichprobe aus.
Beim maschinellen Lernen bezieht sich die Bootstrap-Methode auf Zufallsstichproben mit Ersetzung, bei denen es sich um eine erneute Stichprobenziehung handelt, die es dem Modell oder Algorithmus ermöglicht, die darin vorhandenen Verzerrungen, Varianzen und Merkmale besser zu verstehen. Die Stichprobenziehung der Daten ermöglicht eine erneute Stichprobenziehung, um verschiedene Verzerrungen einzubeziehen und sie dann als Ganzes zu erfassen. Wie in Abbildung 1 dargestellt, besteht jede Stichprobenpopulation aus unterschiedlichen Teilen und unterscheidet sich voneinander. Dies wirkt sich dann auf den Gesamtmittelwert, die Standardabweichung und andere beschreibende Maße des Datensatzes aus. Im Gegenzug können robustere Modelle entwickelt werden.
Bootstrapping eignet sich auch für kleine Datensätze, die zur Überanpassung neigen.
Der Grund für die Verwendung von Bootstrap besteht darin, dass damit die Stabilität der Lösung getestet werden kann. Das Testen mehrerer Modelle mit mehreren Beispieldatensätzen kann die Robustheit verbessern. Möglicherweise weist ein Beispieldatensatz einen größeren Mittelwert als andere Datensätze oder eine andere Standardabweichung auf. Dieser Ansatz kann Modelle identifizieren, die überangepasst sind und nicht anhand von Datensätzen mit unterschiedlichen Varianzen getestet wurden.
Verwendung von
Einer der Gründe, warum Bootstrapping immer häufiger vorkommt, ist die Steigerung der Rechenleistung. Es gibt mehr Neuanordnungen und Resampling als zuvor. Sowohl Bagging als auch Boosting verwenden Bootstrapping
Weitere technische Artikel zum Thema Bootstrap finden Sie in der Spalte Bootstrap-Tutorial, um mehr zu erfahren!
Das obige ist der detaillierte Inhalt vonWas ist Bootstrapping?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!