蒲公英 - 制药技术的传播者 GMP理论的实践者

搜索
查看: 32499|回复: 14
收起左侧

[统计基础] 样本量大于30就可以认为是正态分布了吗?

[复制链接]
大师
发表于 2018-8-4 20:36:08 | 显示全部楼层 |阅读模式

欢迎您注册蒲公英

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
样本量大于30就可以认为是正态分布了吗?

摘自:《白话统计》第6章 寻找失踪的运动员


很多研究生或临床医生都问过我,样本量大于30是不是就用做正态性检验了?而且一本正经地说:“这是统计学书上说的。”有的说得更专业,根据中心极限定理,当样本量大于30的时候,就接近正态了。甚至有人以此来回答审稿人提出的“为什么不做正态性检验”这样的问题。

通过上述介绍,我们一定要明白,中心极限定理不是针对原始数据的,而是针对统计量的。它说的是:不管原始数据的分布是什么样的(可能是正态的,也可能是偏态的),从原始数据中多次抽样,得到多个样本,每个样本可以计算出一个相应的统计量(如均数),如果每个样本中的例数大于30,那么这些统计量(如均数)的分布接近正态;而不是说,一个样本中的原始数据的个数大于30,原始数据的分布接近正态。

尽管我们刚才已经展示了中心极限定量的思想,但为了解释这一困惑,我们再通过一个例子加强一下对此的理解。

假定有一份很明显的偏态数据,现在我们从该总体中进行随机抽样。
1.png
情形1:共抽取500次,每次样本均为5例,计算每次样本5个值的均数,得到500个均数,这500个均数的分布如下图所示:
2.png
情形2:共抽取500次,每次抽样均为15例,计算每次样本15个值的均数,得到500个均数,这500个均数的分布如下图所示:
3.png
情形3:共抽取500次,每次抽样均为30例,计算每次样本30个值的均数,得到500个均数,这500个均数的分布如下图所示:
4.png
从上面3种情形可以看出,当每次抽样的例数较少的时候,统计量的分布与总体分布形状差不多(在极端情况下,如果每次抽样例数都是1,那就跟总体分布基本一样)。随着每次抽样的例数增加,统计量的分布越来越接近正态分布。当例数为30的时候,就非常接近正态分布了。这就是为什么说当样本量大于30时,统计量的分布基本呈正态(注意不是原始数据的分布呈正态分布)。

可惜,统计学中(当然生活中也是如此)经常充满了各种以讹传讹,到最后就变成了听风是雨。如果课堂上老师讲不清楚,那么到了学生的头脑中就变成了,只要数据量大于30,我就不用做正态性检验了,我就可以理直气壮地使用t检验、方差分析了。

有很多变量,哪怕例数有成千上万个,依然是不服从正态分布的,如住院费用、收入、某些检验指标等。此时使用均数已经难以反映其真实情况了,那还使用基于均数的t检验等方法进行分析,其结论会可靠吗?



回复

使用道具 举报

药徒
发表于 2019-1-20 15:15:35 | 显示全部楼层
t检验分两种情况,正态下和非正态下,分别看结果
回复

使用道具 举报

药徒
发表于 2018-8-5 13:45:28 | 显示全部楼层
回复

使用道具 举报

发表于 2018-8-6 14:37:34 | 显示全部楼层
这个例子理解起来还是很容易的

点评

白话统计这本书,有一个特点,就是容易理解一些。也可看看小白学统计微信公众号里文章,还不错的  详情 回复 发表于 2018-8-6 18:33
回复

使用道具 举报

大师
 楼主| 发表于 2018-8-6 18:33:03 | 显示全部楼层
kong 发表于 2018-8-6 14:37
这个例子理解起来还是很容易的

白话统计这本书,有一个特点,就是容易理解一些。也可看看小白学统计微信公众号里文章,还不错的
回复

使用道具 举报

发表于 2018-8-8 10:18:50 | 显示全部楼层
谢谢,已关注
回复

使用道具 举报

药徒
发表于 2018-8-10 14:28:38 | 显示全部楼层
谢谢分享!!
回复

使用道具 举报

发表于 2018-8-15 13:16:56 | 显示全部楼层
有没有比较适合初次接触统计的书籍

点评

其实这本白话统计,就适合看。  详情 回复 发表于 2018-8-15 19:05
回复

使用道具 举报

大师
 楼主| 发表于 2018-8-15 19:05:04 | 显示全部楼层
王淼 发表于 2018-8-15 13:16
有没有比较适合初次接触统计的书籍

其实这本白话统计,就适合看。
回复

使用道具 举报

药徒
发表于 2019-1-18 16:57:41 | 显示全部楼层
请问白话统计这本书哪里有卖?
回复

使用道具 举报

药徒
发表于 2019-1-18 17:06:10 | 显示全部楼层
回复

使用道具 举报

药士
发表于 2019-1-19 08:23:39 | 显示全部楼层
有一点小错误,那就是t检验确实是用正态分布推导出来的,但是呢,通过实践大家发现,在很多数据不符合正态分布时用t检验竟然也可以...........
回复

使用道具 举报

发表于 2019-2-14 11:46:52 | 显示全部楼层
好东西!!辛苦了!
回复

使用道具 举报

发表于 2022-4-13 10:53:21 | 显示全部楼层

thanks for sharing
回复

使用道具 举报

药徒
发表于 2023-10-13 14:03:36 | 显示全部楼层
有学到,开心
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×发帖声明
1、本站为技术交流论坛,发帖的内容具有互动属性。您在本站发布的内容:
①在无人回复的情况下,可以通过自助删帖功能随时删除(自助删帖功能关闭期间,可以联系管理员微信:8542508 处理。)
②在有人回复和讨论的情况下,主题帖和回复内容已构成一个不可分割的整体,您将不能直接删除该帖。
2、禁止发布任何涉政、涉黄赌毒及其他违反国家相关法律、法规、及本站版规的内容,详情请参阅《蒲公英论坛总版规》。
3、您在本站发表、转载的任何作品仅代表您个人观点,不代表本站观点。不要盗用有版权要求的作品,转贴请注明来源,否则文责自负。
4、请认真阅读上述条款,您发帖即代表接受上述条款。

QQ|手机版|蒲公英|ouryao|蒲公英 ( 京ICP备14042168号-1 )  增值电信业务经营许可证编号:京B2-20243455  互联网药品信息服务资格证书编号:(京)-非经营性-2024-0033

GMT+8, 2025-4-19 13:22

Powered by Discuz! X3.4运维单位:苏州豚鼠科技有限公司

Copyright © 2001-2020, Tencent Cloud.

声明:蒲公英网站所涉及的原创文章、文字内容、视频图片及首发资料,版权归作者及蒲公英网站所有,转载要在显著位置标明来源“蒲公英”;禁止任何形式的商业用途。违反上述声明的,本站及作者将追究法律责任。
快速回复 返回顶部 返回列表