正态分布是很多连续型数据比较分析的大前提,比如t检验、方差分析、相关分析以及线性回归等,均要求数据服从正态分布或近似正态分布。
但大多数人进行统计时容易忽略这一重要前提,导致统计效能下降和假阴性风险增加。
三种正态分布的检验方法。
一、图形法
一提到正态分布,我们自然会想到一个钟型形状。如下图。特点是“中间多,两端少”。
1、频数分布直方图
观察直方图的分布形状是否为一个倒扣“钟”型的对称形状,如果接近或相似,则可认为数据服从正态分布。
2、正态Q-Q图
简介:Q-Q图反映了变量的实际分布与理论分布的符合程度,可以用来考察数据是否服从某种分布类型。若数据服从正态分布,则数据点应与理论直线基本重合
观察Q-Q图上的点能否分布在一条直线上,分布在一条直线上则说明近似或服从正态分布。
3、正态P-P图
简介:P-P图反映了变量的实际累积概率与理论累积概率的符合程度,可以用来考察数据是否服从某种分布类型。若数据服从正态分布,则数据点应与理论直线基本重合。与Q-Q图意义相似。
观察P-P图上的点能否分布在理论分布的直线上,若基本分布在直线上则说明近似或服从正态分布。
二、偏度和峰度
简介:
[偏度]主要用于判定数据的对称性,整体数据偏左还是偏右
当偏度S≈0时,可认为分布是对称的,服从正态分布;
当偏度S>0时,分布为右偏,即拖尾在右边,峰尖在左边,也称为正偏态;
当偏度S<0时,分布为左偏,即拖尾在左边,峰尖在右边,也称为负偏态;
注意:数据分布的左偏或右偏,指的是数值拖尾的方向,而不是峰的位置。
[峰度]是用于判定数据分布的陡缓程度
当峰度K≈0时,可认为分布的峰态合适,服从正态分布(不胖不瘦);
当峰度K>0时,分布的峰态陡峭(高尖);
当峰度K<0时,分布的峰态平缓(矮胖);
了解偏度和峰度这两个统计量的含义很重要,是检验数据正态分布的重要指标。
实际上,我们收集到很难能满足S≈0,K≈0, 因此,可采用K与S系数来检验,检验公式如下。
其中,SS和SK均为S系数和K系数的标准误。在α=0.05的情况下,Z值的绝对值大于1.96时,可认为K系数或S系数显著不等于0,即样本数据非正态。
当样本量过大(超过100)时,采用峰度和偏度系数会对正态性的情况有所偏误,此时,可以直接尝试采用图示法(直方图、P-P、Q-Q)的方法进行检验会更直观。
三、非参数检验法
简介:正态性检验属于非参数检验,原假设为“样本来自的总体与正态分布无显著性差异”,只有P>0.05才能接受原假设,及数据符合正态分布。
常见的正态性检验有Kolmogorov-Smirnov检验(即柯尔莫戈洛夫-斯米诺夫检验,简称K-S检验)和Shapiro-Wilk检验(即夏皮-威尔克检验,简称S-W检验),前者适用于小样本数据,后者适用于大样本
数据,当检验结果的p值小于0.05,则认为数据不满足正态性。
当数据量≤50时,倾向于以夏皮洛-威尔克(S-W)检验结果为准;
当数据量>50时,倾向于以柯尔莫戈洛夫-斯米诺夫(K-S)检验结果为准;
当数据量>5000时,SPSS只会显示K-S检验结果。
注意事项:在使用S-W和K-S检验时需注意,当样本量较少的时候,检验结果不够敏感,即使数据分布有一定的偏离也不一定能检验出来;而当样本量较大的时候,检验结果又会太过敏感,只要数据稍微
有一点偏离,P值就会<0.05,检验结果倾向于拒绝原假设,认为数据不服从正态分布。
所以,如果样本量足够多,即使检验结果P<0.05,数据来自的总体也可能是服从正态分布的。为此,我们要结合图直方图、P-P、Q-Q的图示法灵活使用。
五、小结
正态分布的检验方法包括图示法、偏度和峰度、非参数检验方法。
图形法检验正态分布往往是有效的,是实际应用中较为普遍的方式,是对正态分布显著性检验(如偏度和峰度的Z值、S-W及K-S检验)的有力辅助手段。
在实际的应用中,往往会出现明明直方图显示分布很对称,但参数检验的结果P值却<0.05,拒绝原假设认为不服从正态分布。
此时建议不要太刻意追求正态性检验的P值,一定要参考直方图、P-P图等图形工具来帮助判断。因此正态性检验三种方法均有重要实用意义。
很多统计学方法,如T检验、方差分析等,与其说要求数据严格服从正态分布,不如说“数据分布不要太偏态”更为合适。