Maison >développement back-end >Tutoriel Python >Démonstration de la règle 68-95-99.7 dans les statistiques à l'aide de Python

Démonstration de la règle 68-95-99.7 dans les statistiques à l'aide de Python

WBOYavant: 2023-09-05 13:33:10788parcourir

Démonstration de la règle 68-95-99.7 dans les statistiques à laide de Python

Statistics nous fournit des outils puissants pour analyser et comprendre les données. L’un des concepts fondamentaux des statistiques est la règle 68-95-99,7, également connue sous le nom de règle empirique ou règle des trois sigma. Cette règle nous permet de faire des déductions importantes sur la distribution des données en fonction de leur écart type. Dans cet article de blog, nous explorerons la règle 68-95-99.7 et montrerons comment l'appliquer à l'aide de Python.

Aperçu des règles 68-95-99.7

La règle

68-95-99,7 permet d'estimer le pourcentage de données dans une distribution normale qui se situe dans un certain écart type par rapport à la moyenne. Selon cette règle -

Environ 68 % des données se situent dans un écart type de la moyenne.
Environ 95 % des données se situent à moins de deux écarts types de la moyenne.
Environ 99,7 % des données se situent à moins de trois écarts types de la moyenne.

Ces pourcentages concernent les ensembles de données qui suivent une distribution normale (également connue sous le nom de courbe en cloche). Comprendre cette règle nous permet d'évaluer rapidement la répartition des données et d'identifier les valeurs aberrantes ou les observations inhabituelles.

Implémentation de la règle 68-95-99.7 en Python

Pour démontrer la règle 68-95-99.7 en action, nous utiliserons Python et sa populaire bibliothèque d'analyse de données NumPy. NumPy fournit des opérations numériques et des fonctions statistiques efficaces pour nous aider à calculer les valeurs nécessaires. Importons d'abord les bibliothèques requises −

import numpy as np
import matplotlib.pyplot as plt

Ensuite, nous utiliserons la fonction numpy.random.normal() pour générer un ensemble de données aléatoires qui suit une distribution normale. Nous utiliserons la moyenne 0 et l'écart type 1 −

np.random.seed(42)  # Set the random seed for reproducibility
data = np.random.normal(0, 1, 10000)

Maintenant, nous pouvons calculer la moyenne et l'écart type de l'ensemble de données −

mean = np.mean(data)
std = np.std(data)

Pour visualiser les données et la zone couverte par la règle 68-95-99.7, nous pouvons créer un histogramme en utilisant la fonction matplotlib.pyplot.hist() −

plt.hist(data, bins=30, density=True, alpha=0.7)

# Plot the mean and standard deviations
plt.axvline(mean, color='r', linestyle='dashed', linewidth=1, label='Mean')
plt.axvline(mean - std, color='g', linestyle='dashed', linewidth=1, label='1 STD')
plt.axvline(mean + std, color='g', linestyle='dashed', linewidth=1)
plt.axvline(mean - 2*std, color='b', linestyle='dashed', linewidth=1, label='2 STD')
plt.axvline(mean + 2*std, color='b', linestyle='dashed', linewidth=1)
plt.axvline(mean - 3*std, color='m', linestyle='dashed', linewidth=1, label='3 STD')
plt.axvline(mean + 3*std, color='m', linestyle='dashed', linewidth=1)

plt.legend()
plt.xlabel('Value')
plt.ylabel('Density')
plt.title('Histogram of the Dataset')
plt.show()

L'histogramme généré montrera la distribution des données avec la moyenne et l'écart type marqués par des lignes pointillées.

Pour calculer le pourcentage couvert par chaque plage, nous pouvons utiliser la fonction de distribution cumulative (CDF) de la distribution normale. La fonction NumPy numpy.random.normal() génère des données normalement distribuées, mais NumPy fournit également numpy.random.normal() pour calculer le CDF −

# Calculate the percentage within one standard deviation
pct_within_1_std = np.sum(np.logical_and(data >= mean - std, data 7lt;= mean + std)) / len(data)

# Calculate the percentage within two standard deviations
pct_within_2_std = np.sum(np.logical_and(data >= mean - 2*std, data <= mean + 2*std)) / len(data)

# Calculate the percentage within three standard deviations
pct_within_3_std = np.sum(np.logical_and(data >= mean - 3*std, data <= mean + 3*std)) / len(data)

print("Percentage within one standard deviation: {:.2%}".format(pct_within_1_std))
print("Percentage within two standard deviations: {:.2%}".format(pct_within_2_std))
print("Percentage within three standard deviations: {:.2%}".format(pct_within_3_std))

Lorsque vous exécutez ce code, vous verrez le pourcentage de vos données qui se situent entre 1, 2 et 3 écarts types de la moyenne.

Percentage within one standard deviation: 68.27%
Percentage within two standard deviations: 95.61%
Percentage within three standard deviations: 99.70%

Ces résultats sont très cohérents avec les pourcentages attendus pour la règle 68-95-99,7.

68-95-99.7 Explication des règles

Le pourcentage couvert par chaque gamme a une interprétation spécifique. Les données qui se situent à moins d’un écart-type de la moyenne sont relativement courantes, tandis que les données qui se situent en dehors de trois écarts-types de la moyenne sont considérées comme rares. Comprendre ces explications permet de tirer des conclusions significatives sur les données.

68-95-99.7 Restrictions des règles

Bien que la règle 68-95-99,7 soit une ligne directrice précieuse, elle peut ne pas s'appliquer avec précision aux ensembles de données qui s'écartent considérablement de la distribution normale. Lorsque l’on travaille avec de tels ensembles de données, il est crucial d’envisager d’autres techniques statistiques et de procéder à une analyse plus approfondie.

Valeurs aberrantes et règle 68-95-99,7

Les valeurs aberrantes peuvent grandement affecter la précision du pourcentage couvert par chaque plage. Ces valeurs extrêmes peuvent fausser la répartition et affecter l’efficacité des règles. Une identification et un traitement appropriés des valeurs aberrantes sont importants pour garantir une analyse statistique précise.

Exemples réels

La règle 68-95-99.7 s'applique dans tous les domaines. Par exemple, il est essentiel pour identifier les produits défectueux dans les processus de contrôle qualité, pour évaluer les risques et le retour sur investissement dans l'analyse financière, pour comprendre les caractéristiques des patients dans la recherche sur les soins de santé et pour comprendre la distribution des données dans de nombreux autres domaines.

Au fur et à mesure que vous approfondissez les statistiques, envisagez d'explorer d'autres concepts qui complètent la règle 68-95-99,7. L'asymétrie, l'aplatissement, les intervalles de confiance, les tests d'hypothèses et l'analyse de régression ne sont que quelques exemples d'outils statistiques qui peuvent améliorer davantage votre compréhension et votre analyse de vos données.

Conclusion

68-95-99.7 Les règles sont un concept puissant en statistique qui nous permet de comprendre la distribution des données en termes de leur écart type. En appliquant cette règle, nous pouvons estimer la proportion de données qui se situent dans une plage spécifique autour de la moyenne. Dans ce blog, nous utilisons Python et la bibliothèque NumPy pour générer un ensemble de données aléatoires, le visualiser et calculer le pourcentage de couverture de chaque plage. Comprendre cette règle nous permet de faire des déductions significatives sur les données et d'identifier des valeurs aberrantes potentielles ou des observations inhabituelles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Accédez aux métadonnées de divers fichiers audio et vidéo à l'aide de PythonArticle suivant：Accédez aux métadonnées de divers fichiers audio et vidéo à l'aide de Python

Articles Liés

Voir plus