Python 六西格玛管理 统计学 正态分布 正态性检验(二)

liftword4个月前 (01-11)技术文章26

在前面的几篇文章,我们了解了有关正态分布的如下内容:

  1. 影响正态分布的三大要素,分别是:样本量,概率密度函数pdf,和随机性。
  2. 在六西格玛管理的体系中,正态分布对数据分析,有着重要的影响。
  3. 在制造管理领域,可以用正态性检验,来判断一个数据集是不是正态分布。

我们使用python编程,生成模拟数据,以及可视化,对以上内容进行了验证和展示。

同时,我们描述了两种正态性检验方法:直方图可视化,和偏度峰度数值评估。

接下来,我们继续讨论其他的正态性检验方法。

三、假设检验:夏皮罗法 Shapiro Test

夏皮罗法,全称Shapiro-Wilk Test(夏皮罗威尔克检验),是一个比较著名的统计学假设检验。

它是一个定量方法,经常被用来做数据的正态性检验。

Python的代码和输出结果展示如下:

输出的结果,有两个评价指标,如下:

  1. 指标1,statistic为0.9976,接近1,说明数据集与正态分布曲线拟合得很好。
  2. 指标2,pvalue是0.7184,远大于0.05,说明不是正态分布的可能性非常小。

Python使用的夏皮罗法,样本量不应过大,当样本数量超过5000的时候,夏皮罗法得到的pvalue可能会不准确。

四、假设检验:K-S检验 Kolmogorov-Smirnov Test

另外一个比较合适的正态性检验,就是Kolmogorov-Smirnov Test,也就是K-S检验。直接上代码:

从pvalue的值0.8519可知,远大于0.05,认为数据不是正态分布的可能性非常小。

五、假设检验:Anderson-Darling(AD)检验

这同样是一个经常使用的正态性检验,工业数据分析软件minitab,它的正态性检验默认设置,就是这个检验。

这里的python代码如下:

判断准则是,statistic的值应当小于critical_values列表的5个值。

本例中,输出的评价值为0.3108,小于0.571及其他数值,所以正态分布的可能性非常大。

六、Q-Q图可视化

另外一种正态性检验经常使用的可视化方法,就是Q-Q图。

本例的Q-Q图如下:

由上图可知,该数据集,它的所有的点,除了两端个别的点之外,都很好地拟合在直线上。

如果一个Q-Q图,它的拟合直线的效果越好,说明数据越可能是正态分布。

相关文章

PYTHON如何实现曲线平滑(附代码)

在 Python 中,可以通过移动平均法、高斯滤波、 Savitzky-Golay 滤波来实现曲线平滑。下面用python分别实现了曲线平滑。1.移动平均法(Moving Average)原理:移动平...

【Python机器学习系列】拟合和回归傻傻分不清?一文带你彻底搞懂

一、拟合和回归的区别拟合并不特指某一种方法,指的是对一些数据,按其规律方程化,比如把平面(一元)上一系列的离散点,用一条直线(线性)或光滑的曲线(非线性)连接起来,而其方程化的方法有很多,回归分析(r...

用拟合来简化规范公式

简化计算时,拟合是一个好帮手。规范公式拟合的例子《GB 50009-2012:建筑结构荷载规范》第8.4.6条。脉动风荷载水平方向相关系数:脉动风荷载竖直方向相关系数:相比规范公式,拟合公式更容易看出...