首页 >科技周边 >人工智能 >确定数据分布正态性的11种基本方法

确定数据分布正态性的11种基本方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB转载: 2023-12-14 20:50:541554浏览

在数据科学和机器学习领域，许多模型都假设数据呈现正态分布，或者假设数据在正态分布下表现更好。例如，线性回归假设残差呈正态分布，线性判别分析（LDA）基于正态分布等假设进行推导。因此，了解如何测试数据正态性的方法对于数据科学家和机器学习从业者至关重要

确定数据分布正态性的11种基本方法

本篇文章旨在介绍11种基本方法来测试数据的正态性，以帮助读者更好地了解数据分布的特征，并学会如何应用适当的方法进行分析。这样可以更好地处理数据分布对模型性能的影响，在机器学习和数据建模过程中更加得心应手

确定数据分布正态性的11种基本方法

绘图法Plotting Methods

1.QQ Plot

QQ图（分位数-分位数图）是一种广泛使用的方法，用于检查数据分布是否符合正态分布。在QQ图中，将数据的分位数与标准正态分布的分位数进行比较，如果数据分布接近正态分布，则QQ图上的点将接近一条直线

为了演示QQ图，下面的示例代码生成了一组服从正态分布的随机数据。运行代码后，您可以看到QQ图以及相应的正态分布曲线。通过观察图上点的分布情况，可以初步判断数据是否接近正态分布

import numpy as npimport scipy.stats as statsimport matplotlib.pyplot as plt# 生成一组随机数据，假设它们服从正态分布data = np.random.normal(0, 1, 1000)# 绘制QQ图stats.probplot(data, dist="norm", plot=plt)plt.title('Q-Q Plot')plt.show()

确定数据分布正态性的11种基本方法

2.KDE Plot

KDE（核密度估计）图是一种用于可视化数据分布的方法，能够帮助我们检测数据的正态性。在KDE图中，通过估计数据的密度并绘制成一条平滑的曲线，有助于我们观察数据的分布形状

为了演示KDE Plot，下面的示例代码生成了一组服从正态分布的随机数据。运行代码后，您可以看到KDE Plot以及相应的正态分布曲线，通过可视化来检测数据分布是否符合正态性

import numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# 生成随机数据np.random.seed(0)data = np.random.normal(loc=0, scale=1, size=1000)# 创建KDE Plotsns.kdeplot(data, shade=True, label='KDE Plot')# 添加正态分布曲线mu, sigma = np.mean(data), np.std(data)x = np.linspace(min(data), max(data), 100)y = (1/(sigma * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((x - mu) / sigma) ** 2)plt.plot(x, y, 'r--', label='Normal Distribution')# 显示图表plt.legend()plt.show()

确定数据分布正态性的11种基本方法

3.Violin Plot

通过观察Violin Plot可以发现数据的分布形状，从而初步判断数据是否接近正态分布。如果 Violin Plot 呈现出类似钟形曲线的形状，那么数据可能是近似正态分布的。如果 Violin Plot 偏斜严重或者有多个峰值，那么数据可能不是正态分布的。

以下示例代码用于生成服从正态分布的随机数据，以展示Violin Plot。运行代码后，您可以看到Violin Plot以及相应的正态分布曲线。通过可视化来检测数据分布的形状，从而初步判断数据是否接近正态分布

import numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# 生成随机数据np.random.seed(0)data = np.random.normal(loc=0, scale=1, size=100)# 创建 Violin Plotsns.violinplot(data, inner="points")# 添加正态分布曲线mu, sigma = np.mean(data), np.std(data)x = np.linspace(min(data), max(data), 100)y = (1/(sigma * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((x - mu) / sigma) ** 2)plt.plot(x, y, 'r--', label='Normal Distribution')# 显示图表plt.legend()plt.show()

确定数据分布正态性的11种基本方法

4.Histogram

使用直方图（Histogram）来检测数据分布的正态性也是一种常用的方法。直方图可以帮助我们直观地了解数据的分布情况，并且可以初步判断数据是否接近正态分布

import numpy as npimport matplotlib.pyplot as pltimport scipy.stats as stats# 生成一组随机数据，假设它们服从正态分布data = np.random.normal(0, 1, 1000)# 绘制直方图plt.hist(data, bins=30, density=True, alpha=0.6, color='g')plt.title('Histogram of Data')plt.xlabel('Value')plt.ylabel('Frequency')# 绘制正态分布的概率密度函数xmin, xmax = plt.xlim()x = np.linspace(xmin, xmax, 100)p = stats.norm.pdf(x, np.mean(data), np.std(data))plt.plot(x, p, 'k', linewidth=2)plt.show()

确定数据分布正态性的11种基本方法

如上图所示，如果直方图近似呈现钟形曲线，并且与对应的正态分布曲线形状相似，那么数据可能符合正态分布。当然，可视化只是一种初步的判断，如果需要更精确的检测，可以结合使用正态性检验等统计方法进行分析。

统计方法Statistical Methods

5.夏皮罗一威尔克(Shapiro-Wilk)检验

Shapiro-Wilk检验是一种用于检验数据是否符合正态分布的统计方法，也被称为W检验。在进行Shapiro-Wilk检验时，我们通常关注两个主要指标：

统计量W：基于观测数据与在正态分布下的期望值之间的相关性来计算统计量W，W的取值范围在0和1之间，当W接近1时，表示观测数据与正态分布的拟合程度较好。
P值：P值表示观测到这种相关性的可能性，如果P值大于显著水平（通常为0.05），则表明观测数据很可能来自正态分布。

因此，当统计量W接近1且P值大于0.05时，我们可以得出结论：观测数据满足正态分布。

如下代码中，首先生成一组服从正态分布的随机数据，然后进行Shapiro-Wilk检验，得到检验统计量和P值。根据P值与显著性水平的比较，即可判断样本数据是否来自正态分布。

from scipy import statsimport numpy as np# 生成一组服从正态分布的随机数据data = np.random.normal(0, 1, 100)# 执行Shapiro-Wilk检验stat, p = stats.shapiro(data)print('Shapiro-Wilk Statistic:', stat)print('P-value:', p)# 根据P值判断正态性alpha = 0.05if p > alpha:print('样本数据可能来自正态分布')else:print('样本数据不符合正态分布')

确定数据分布正态性的11种基本方法

6.KS检验

KS检验（Kolmogorov-Smirnov检验）是一种用于检验数据是否符合特定分布（例如正态分布）的统计方法。它通过计算观测数据与理论分布的累积分布函数（CDF）之间的最大差异来评估它们是否来自同一分布。其基本步骤如下：

对两个样本数据进行排序。
计算两个样本的经验累积分布函数(ECDF)，即计算每个值在样本中的累积百分比。
计算两个累积分布函数之间的差异，通常使用KS统计量衡量。
根据样本的大小和显著性水平，使用参考表活计算p值判断两个样本是否来自同一分布。

Python中使用KS检验来检验数据是否符合正态分布时，可以使用Scipy库中的kstest函数。下面是一个简单的示例，演示了如何使用Python进行KS检验来检验数据是否符合正态分布。

from scipy import statsimport numpy as np# 生成一组服从正态分布的随机数据data = np.random.normal(0, 1, 100)# 执行KS检验statistic, p_value = stats.kstest(data, 'norm')print('KS Statistic:', statistic)print('P-value:', p_value)# 根据P值判断正态性alpha = 0.05if p_value > alpha:print('样本数据可能来自正态分布')else:print('样本数据不符合正态分布')

确定数据分布正态性的11种基本方法

7.Anderson-Darling检验

Anderson-Darling检验是一种用于检验数据是否来自特定分布（例如正态分布）的统计方法。它特别强调观察值在分布尾部的差异，因此在检测极端值的偏差方面非常有效

下面的代码使用stats.anderson函数执行Anderson-Darling检验，并获取检验统计量、临界值以及显著性水平。然后通过比较统计量和临界值，可以判断样本数据是否符合正态分布

from scipy import statsimport numpy as np# 生成一组服从正态分布的随机数据data = np.random.normal(0, 1, 100)# 执行Anderson-Darling检验result = stats.anderson(data, dist='norm')print('Anderson-Darling Statistic:', result.statistic)print('Critical Values:', result.critical_values)print('Significance Level:', result.significance_level)# 判断正态性if result.statistic <p style="text-align:center;"><img src="https://img.php.cn/upload/article/000/887/227/170255826239547.png" alt="确定数据分布正态性的11种基本方法"></p><h4>8.Lilliefors检验</h4><p>Lilliefors检验（也被称为Kolmogorov-Smirnov-Lilliefors检验）是一种用于检验数据是否符合正态分布的统计检验方法。它是Kolmogorov-Smirnov检验的一种变体，专门用于小样本情况。与K-S检验不同，Lilliefors检验不需要假定数据的分布类型，而是基于观测数据来评估是否符合正态分布</p><p>在下面的例子中，我们使用lilliefors函数进行Lilliefors检验，并获得了检验统计量和P值。通过将P值与显著性水平进行比较，我们可以判断样本数据是否符合正态分布</p><pre class="brush:php;toolbar:false">import numpy as npfrom statsmodels.stats.diagnostic import lilliefors# 生成一组服从正态分布的随机数据data = np.random.normal(0, 1, 100)# 执行Lilliefors检验statistic, p_value = lilliefors(data)print('Lilliefors Statistic:', statistic)print('P-value:', p_value)# 根据P值判断正态性alpha = 0.05if p_value > alpha:print('样本数据可能来自正态分布')else:print('样本数据不符合正态分布')

确定数据分布正态性的11种基本方法