Heim >Backend-Entwicklung >Python-Tutorial >Demonstration der 68-95-99,7-Regel in der Statistik mit Python

Demonstration der 68-95-99,7-Regel in der Statistik mit Python

WBOY
WBOYnach vorne
2023-09-05 13:33:10768Durchsuche

Demonstration der 68-95-99,7-Regel in der Statistik mit Python

Statistics bietet uns leistungsstarke Tools zum Analysieren und Verstehen von Daten. Eines der Grundkonzepte der Statistik ist die 68-95-99,7-Regel, auch bekannt als Faustregel oder Drei-Sigma-Regel. Diese Regel ermöglicht es uns, anhand ihrer Standardabweichung wichtige Rückschlüsse auf die Verteilung von Daten zu ziehen. In diesem Blogbeitrag werden wir die 68-95-99,7-Regel untersuchen und zeigen, wie man sie mit Python anwendet.

68-95-99,7 Regelübersicht

Die

68-95-99,7-Regel bietet eine Möglichkeit, den Prozentsatz der Daten in einer Normalverteilung zu schätzen, der innerhalb einer bestimmten Standardabweichung vom Mittelwert liegt. Nach dieser Regel -

  • Ungefähr 68 % der Daten liegen innerhalb einer Standardabweichung vom Mittelwert.

  • Ungefähr 95 % der Daten liegen innerhalb von zwei Standardabweichungen vom Mittelwert.

  • Ungefähr 99,7 % der Daten liegen innerhalb von drei Standardabweichungen vom Mittelwert.

Diese Prozentsätze gelten für Datensätze, die einer Normalverteilung (auch als Glockenkurve bekannt) folgen. Wenn wir diese Regel verstehen, können wir die Verbreitung von Daten schnell beurteilen und Ausreißer oder ungewöhnliche Beobachtungen identifizieren.

Implementierung der 68-95-99,7-Regel in Python

Um die 68-95-99,7-Regel in Aktion zu demonstrieren, verwenden wir Python und seine beliebte Datenanalysebibliothek NumPy. NumPy bietet effiziente numerische Operationen und statistische Funktionen, die uns bei der Berechnung der erforderlichen Werte helfen. Importieren wir zunächst die benötigten Bibliotheken

import numpy as np
import matplotlib.pyplot as plt

Als nächstes verwenden wir die Funktion numpy.random.normal(), um einen Zufallsdatensatz zu generieren, der einer Normalverteilung folgt. Wir verwenden den Mittelwert 0 und die Standardabweichung 1

np.random.seed(42)  # Set the random seed for reproducibility
data = np.random.normal(0, 1, 10000)

Jetzt können wir den Mittelwert und die Standardabweichung des Datensatzes berechnen

mean = np.mean(data)
std = np.std(data)

Um die Daten und den von der 68-95-99,7-Regel abgedeckten Bereich zu visualisieren, können wir mit der Funktion matplotlib.pyplot.hist()

ein Histogramm erstellen
plt.hist(data, bins=30, density=True, alpha=0.7)

# Plot the mean and standard deviations
plt.axvline(mean, color='r', linestyle='dashed', linewidth=1, label='Mean')
plt.axvline(mean - std, color='g', linestyle='dashed', linewidth=1, label='1 STD')
plt.axvline(mean + std, color='g', linestyle='dashed', linewidth=1)
plt.axvline(mean - 2*std, color='b', linestyle='dashed', linewidth=1, label='2 STD')
plt.axvline(mean + 2*std, color='b', linestyle='dashed', linewidth=1)
plt.axvline(mean - 3*std, color='m', linestyle='dashed', linewidth=1, label='3 STD')
plt.axvline(mean + 3*std, color='m', linestyle='dashed', linewidth=1)

plt.legend()
plt.xlabel('Value')
plt.ylabel('Density')
plt.title('Histogram of the Dataset')
plt.show()

Das generierte Histogramm zeigt die Verteilung der Daten, wobei der Mittelwert und die Standardabweichung mit gestrichelten Linien markiert sind.

Um den von jedem Bereich abgedeckten Prozentsatz zu berechnen, können wir die kumulative Verteilungsfunktion (CDF) der Normalverteilung verwenden. Die NumPy-Funktion numpy.random.normal() generiert normalverteilte Daten, NumPy stellt jedoch auch numpy.random.normal() zur Berechnung des CDF

bereit
# Calculate the percentage within one standard deviation
pct_within_1_std = np.sum(np.logical_and(data >= mean - std, data 7lt;= mean + std)) / len(data)

# Calculate the percentage within two standard deviations
pct_within_2_std = np.sum(np.logical_and(data >= mean - 2*std, data <= mean + 2*std)) / len(data)

# Calculate the percentage within three standard deviations
pct_within_3_std = np.sum(np.logical_and(data >= mean - 3*std, data <= mean + 3*std)) / len(data)

print("Percentage within one standard deviation: {:.2%}".format(pct_within_1_std))
print("Percentage within two standard deviations: {:.2%}".format(pct_within_2_std))
print("Percentage within three standard deviations: {:.2%}".format(pct_within_3_std))

Wenn Sie diesen Code ausführen, sehen Sie den Prozentsatz Ihrer Daten, der innerhalb von 1, 2 und 3 Standardabweichungen vom Mittelwert liegt.

Percentage within one standard deviation: 68.27%
Percentage within two standard deviations: 95.61%
Percentage within three standard deviations: 99.70%

Diese Ergebnisse stimmen sehr gut mit den erwarteten Prozentsätzen für die 68-95-99,7-Regel überein.

68-95-99,7 Erklärung der Regeln

Der von jedem Bereich abgedeckte Prozentsatz hat eine spezifische Interpretation. Daten, die innerhalb einer Standardabweichung vom Mittelwert liegen, sind relativ häufig, während Daten, die außerhalb von drei Standardabweichungen des Mittelwerts liegen, als selten gelten. Das Verständnis dieser Erklärungen hilft, aussagekräftige Rückschlüsse auf die Daten zu ziehen.

68-95-99,7 Regeleinschränkungen

Obwohl die 68-95-99,7-Regel eine wertvolle Richtlinie ist, lässt sie sich möglicherweise nicht genau auf Datensätze anwenden, die deutlich von der Normalverteilung abweichen. Bei der Arbeit mit solchen Datensätzen ist es wichtig, andere statistische Techniken zu berücksichtigen und weitere Analysen durchzuführen.

Ausreißer und die 68-95-99,7-Regel

Ausreißer können die Genauigkeit des von jedem Bereich abgedeckten Prozentsatzes stark beeinträchtigen. Diese Extremwerte können die Verteilung verzerren und die Wirksamkeit der Regeln beeinträchtigen. Die ordnungsgemäße Identifizierung und Behandlung von Ausreißern ist wichtig, um eine genaue statistische Analyse sicherzustellen.

Beispiele aus dem echten Leben

68-95-99,7 In allen Bereichen gelten die Regeln. Beispielsweise ist es von entscheidender Bedeutung für die Identifizierung fehlerhafter Produkte in Qualitätskontrollprozessen, für die Bewertung von Risiko und Kapitalrendite in Finanzanalysen, für das Verständnis von Patientenmerkmalen in der Gesundheitsforschung und für das Verständnis von Datenverteilungen in vielen anderen Bereichen.

Wenn Sie tiefer in die Statistiken eintauchen, denken Sie darüber nach, andere Konzepte zu erkunden, die die 68-95-99,7-Regel ergänzen. Schiefe, Kurtosis, Konfidenzintervalle, Hypothesentests und Regressionsanalyse sind nur einige Beispiele für statistische Tools, die Ihr Verständnis und Ihre Analyse Ihrer Daten weiter verbessern können.

Fazit

68-95-99,7 Regeln sind ein leistungsstarkes Konzept in der Statistik, das es uns ermöglicht, die Verteilung von Daten anhand ihrer Standardabweichung zu verstehen. Durch die Anwendung dieser Regel können wir den Anteil der Daten schätzen, der in einem bestimmten Bereich um den Mittelwert liegt. In diesem Blog verwenden wir Python und die NumPy-Bibliothek, um einen Zufallsdatensatz zu generieren, ihn zu visualisieren und die prozentuale Abdeckung jedes Bereichs zu berechnen. Wenn wir diese Regel verstehen, können wir aussagekräftige Rückschlüsse auf die Daten ziehen und potenzielle Ausreißer oder ungewöhnliche Beobachtungen identifizieren.

Das obige ist der detaillierte Inhalt vonDemonstration der 68-95-99,7-Regel in der Statistik mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:tutorialspoint.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen