日志

统计学纪要-正态分布

已有 213 次阅读2024-4-18 17:48 |个人分类:统计学基础

正态分布是很多连续型数据比较分析的大前提，比如t检验、方差分析、相关分析以及线性回归等，均要求数据服从正态分布或近似正态分布。

但大多数人进行统计时容易忽略这一重要前提，导致统计效能下降和假阴性风险增加。

三种正态分布的检验方法。

一、图形法

一提到正态分布，我们自然会想到一个钟型形状。如下图。特点是“中间多，两端少”。

1、频数分布直方图

观察直方图的分布形状是否为一个倒扣“钟”型的对称形状，如果接近或相似，则可认为数据服从正态分布。

2、正态Q-Q图

简介：Q-Q图反映了变量的实际分布与理论分布的符合程度，可以用来考察数据是否服从某种分布类型。若数据服从正态分布，则数据点应与理论直线基本重合

观察Q-Q图上的点能否分布在一条直线上，分布在一条直线上则说明近似或服从正态分布。

3、正态P-P图

简介：P-P图反映了变量的实际累积概率与理论累积概率的符合程度，可以用来考察数据是否服从某种分布类型。若数据服从正态分布，则数据点应与理论直线基本重合。与Q-Q图意义相似。

观察P-P图上的点能否分布在理论分布的直线上，若基本分布在直线上则说明近似或服从正态分布。

二、偏度和峰度

简介：

[偏度]主要用于判定数据的对称性，整体数据偏左还是偏右

当偏度S≈0时，可认为分布是对称的，服从正态分布；

当偏度S>0时，分布为右偏，即拖尾在右边，峰尖在左边，也称为正偏态；

当偏度S<0时，分布为左偏，即拖尾在左边，峰尖在右边，也称为负偏态；

注意：数据分布的左偏或右偏，指的是数值拖尾的方向，而不是峰的位置。

[峰度]是用于判定数据分布的陡缓程度

当峰度K≈0时，可认为分布的峰态合适，服从正态分布（不胖不瘦）；

当峰度K>0时，分布的峰态陡峭（高尖）；

当峰度K<0时，分布的峰态平缓（矮胖）；

了解偏度和峰度这两个统计量的含义很重要，是检验数据正态分布的重要指标。

实际上，我们收集到很难能满足S≈0，K≈0, 因此，可采用K与S系数来检验，检验公式如下。

其中，SS和SK均为S系数和K系数的标准误。在α=0.05的情况下，Z值的绝对值大于1.96时，可认为K系数或S系数显著不等于0，即样本数据非正态。

当样本量过大（超过100）时，采用峰度和偏度系数会对正态性的情况有所偏误，此时，可以直接尝试采用图示法（直方图、P-P、Q-Q）的方法进行检验会更直观。

三、非参数检验法

简介：正态性检验属于非参数检验，原假设为“样本来自的总体与正态分布无显著性差异”，只有P>0.05才能接受原假设，及数据符合正态分布。

常见的正态性检验有Kolmogorov-Smirnov检验（即柯尔莫戈洛夫-斯米诺夫检验，简称K-S检验）和Shapiro-Wilk检验（即夏皮-威尔克检验，简称S-W检验），前者适用于小样本数据，后者适用于大样本

数据，当检验结果的p值小于0.05，则认为数据不满足正态性。

当数据量≤50时，倾向于以夏皮洛-威尔克（S-W）检验结果为准；

当数据量>50时，倾向于以柯尔莫戈洛夫-斯米诺夫（K-S）检验结果为准；

当数据量>5000时，SPSS只会显示K-S检验结果。

注意事项：在使用S-W和K-S检验时需注意，当样本量较少的时候，检验结果不够敏感，即使数据分布有一定的偏离也不一定能检验出来；而当样本量较大的时候，检验结果又会太过敏感，只要数据稍微

有一点偏离，P值就会<0.05，检验结果倾向于拒绝原假设，认为数据不服从正态分布。

所以，如果样本量足够多，即使检验结果P<0.05，数据来自的总体也可能是服从正态分布的。为此，我们要结合图直方图、P-P、Q-Q的图示法灵活使用。

五、小结

正态分布的检验方法包括图示法、偏度和峰度、非参数检验方法。

图形法检验正态分布往往是有效的，是实际应用中较为普遍的方式，是对正态分布显著性检验（如偏度和峰度的Z值、S-W及K-S检验）的有力辅助手段。

在实际的应用中，往往会出现明明直方图显示分布很对称，但参数检验的结果P值却<0.05，拒绝原假设认为不服从正态分布。

此时建议不要太刻意追求正态性检验的P值，一定要参考直方图、P-P图等图形工具来帮助判断。因此正态性检验三种方法均有重要实用意义。

很多统计学方法，如T检验、方差分析等，与其说要求数据严格服从正态分布，不如说“数据分布不要太偏态”更为合适。

路过

雷人

握手

鲜花

鸡蛋

收藏分享邀请举报

觉明智慧的个人空间 https://yx.ouryao.com/?700677 [收藏] [复制] [分享] [RSS]

日志

统计学纪要-正态分布

评论 (0 个评论)

觉明智慧