欢迎您注册蒲公英
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
样本量大于30就可以认为是正态分布了吗?
摘自:《白话统计》第6章 寻找失踪的运动员
很多研究生或临床医生都问过我,样本量大于30是不是就用做正态性检验了?而且一本正经地说:“这是统计学书上说的。”有的说得更专业,根据中心极限定理,当样本量大于30的时候,就接近正态了。甚至有人以此来回答审稿人提出的“为什么不做正态性检验”这样的问题。
通过上述介绍,我们一定要明白,中心极限定理不是针对原始数据的,而是针对统计量的。它说的是:不管原始数据的分布是什么样的(可能是正态的,也可能是偏态的),从原始数据中多次抽样,得到多个样本,每个样本可以计算出一个相应的统计量(如均数),如果每个样本中的例数大于30,那么这些统计量(如均数)的分布接近正态;而不是说,一个样本中的原始数据的个数大于30,原始数据的分布接近正态。
尽管我们刚才已经展示了中心极限定量的思想,但为了解释这一困惑,我们再通过一个例子加强一下对此的理解。
假定有一份很明显的偏态数据,现在我们从该总体中进行随机抽样。
情形1:共抽取500次,每次样本均为5例,计算每次样本5个值的均数,得到500个均数,这500个均数的分布如下图所示:
情形2:共抽取500次,每次抽样均为15例,计算每次样本15个值的均数,得到500个均数,这500个均数的分布如下图所示:
情形3:共抽取500次,每次抽样均为30例,计算每次样本30个值的均数,得到500个均数,这500个均数的分布如下图所示:
从上面3种情形可以看出,当每次抽样的例数较少的时候,统计量的分布与总体分布形状差不多(在极端情况下,如果每次抽样例数都是1,那就跟总体分布基本一样)。随着每次抽样的例数增加,统计量的分布越来越接近正态分布。当例数为30的时候,就非常接近正态分布了。这就是为什么说当样本量大于30时,统计量的分布基本呈正态(注意不是原始数据的分布呈正态分布)。
可惜,统计学中(当然生活中也是如此)经常充满了各种以讹传讹,到最后就变成了听风是雨。如果课堂上老师讲不清楚,那么到了学生的头脑中就变成了,只要数据量大于30,我就不用做正态性检验了,我就可以理直气壮地使用t检验、方差分析了。
有很多变量,哪怕例数有成千上万个,依然是不服从正态分布的,如住院费用、收入、某些检验指标等。此时使用均数已经难以反映其真实情况了,那还使用基于均数的t检验等方法进行分析,其结论会可靠吗?
|