蒲公英 - 制药技术的传播者 GMP理论的实践者

搜索
查看: 4384|回复: 32
收起左侧

[统计基础] 深入浅出正态分布

[复制链接]
药徒
发表于 2021-3-31 22:25:14 | 显示全部楼层 |阅读模式

欢迎您注册蒲公英

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 大呆子 于 2021-4-1 08:08 编辑

统计学里面,正态分布(normal distribution)最常见。质量回顾或持续工艺确认中的多数关键工艺参数(CPP)、关键质量属性(CQA),日常中男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。

图1

图1


以前,我认为中间状态是事物的常态,过高和过低都属于少数,这导致了正态分布的普遍性。最近,读到了 John D. Cook 的文章,才知道我的这种想法是错的。

正态分布为什么常见?真正原因是中心极限定理(central limit theorem)。

    "多个独立统计量的和的平均值,符合正态分布。"

图2

图2


上图中,随着统计量个数的增加,它们和的平均值越来越符合正态分布。

根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

举例来说,人的身高既有先天因素(基因),也有后天因素(营养)。每一种因素对身高的影响都是一个统计量,不管这些统计量本身是什么分布,它们和的平均值符合正态分布。(注意:男性身高和女性身高都是正态分布,但男女混合人群的身高不是正态分布。)

许多事物都受到多种因素的影响,这导致了正态分布的常见。

读到这里,读者可能马上就会提出一个问题:正态分布是对称的(高个子与矮个子的比例相同),但是很多真实世界的分布是不对称的。

图3

图3

比如,财富的分布就是不对称的,富人的有钱程度(可能比平均值高出上万倍),远远超出穷人的贫穷程度(平均值的十分之一就是赤贫了),即财富分布曲线有右侧的长尾。相比来说,身高的差异就小得多,最高和最矮的人与平均身高的差距,都在30%多。

这是为什么呢,财富明明也受到多种因素的影响,怎么就不是正态分布呢?

原来,正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。一个人是否能够挣大钱,由多种因素决定:
  
  • 家庭
  • 教育
  • 运气
  • 工作
  • ...

这些因素都不是独立的,会彼此加强。如果出生在上层家庭,那么你就有更大的机会接受良好的教育、找到高薪的工作、遇见好机会,反之亦然。也就是说,这不是 1 + 1 = 2 的效果,而是 1 + 1 > 2。

统计学家发现,如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布(log normal distribution),即x的对数值log(x)满足正态分布。

图4

图4


这就是说,财富的对数值满足正态分布。如果平均财富是10,000元,那么1000元~10,000元之间的穷人(比平均值低一个数量级,宽度为9000)与10,000元~100,000元之间的富人(比平均值高一个数量级,宽度为90,000)人数一样多。因此,财富曲线左侧的范围比较窄,右侧出现长尾。

                                                                                                                                                                                                                           转载于GMP助手

回复

使用道具 举报

药生
发表于 2021-4-1 07:57:58 | 显示全部楼层
说的都对,但是把正态分布和中心极限定理这样联系起来,很容易踩坑,我就是踩过的,对正态分布的理解反倒出了问题。

点评

说说你的体会  详情 回复 发表于 2021-4-1 08:04
回复

使用道具 举报

药徒
发表于 2021-4-1 07:58:40 | 显示全部楼层
有见解。。。。
回复

使用道具 举报

大师
发表于 2021-4-1 08:04:50 | 显示全部楼层
sxp 发表于 2021-4-1 07:57
说的都对,但是把正态分布和中心极限定理这样联系起来,很容易踩坑,我就是踩过的,对正态分布的理解反倒出 ...

说说你的体会

点评

sxp
以前有个流毒已久的说法:,只要数据足够多,比如超过30个,就不用考虑是否正态,因为中心极限定理的原因,这个说法流毒很久,其实中心极限定理在具体的工作中直接用的不多,不需要和正态联系起来,会弄糊涂很多人的  详情 回复 发表于 2021-4-1 08:10
回复

使用道具 举报

药生
发表于 2021-4-1 08:09:48 | 显示全部楼层
中心极限定理的原理就是样本均值(注意是均值)的波动(注意是波动)符合正态分布,当样本容量无限接近与总体时,样本均值将接近于总体均值。因此我们不需要知道总体分布到底是什么分布(除了柯西分布这样的特例),我们也能运用,才能够进行6西格玛控制等这些控制工具。

点评

sxp
当样本容量无限接近与总体时,看到这个前提了吗?在我们制药行业,什么时候会出现样本容量无限接近与总体?所以这句话你说原理没错,但是实际应用会很容易误导。  详情 回复 发表于 2021-4-1 08:24
sxp
不考虑总体分布,微生物你用什么控制图》  详情 回复 发表于 2021-4-1 08:22
回复

使用道具 举报

药生
发表于 2021-4-1 08:10:00 | 显示全部楼层

以前有个流毒已久的说法:,只要数据足够多,比如超过30个,就不用考虑是否正态,因为中心极限定理的原因,这个说法流毒很久,其实中心极限定理在具体的工作中直接用的不多,不需要和正态联系起来,会弄糊涂很多人的。

点评

中心极限定理更大的作用是用于控制图,CPK、PPK计算需要考虑到样本分布模型。  详情 回复 发表于 2021-4-1 08:15
回复

使用道具 举报

药生
发表于 2021-4-1 08:15:59 | 显示全部楼层
sxp 发表于 2021-4-1 08:10
以前有个流毒已久的说法:,只要数据足够多,比如超过30个,就不用考虑是否正态,因为中心极限定理的原因 ...

中心极限定理更大的作用是用于控制图,CPK、PPK计算需要考虑到样本分布模型。

点评

sxp
你看,糊涂了吧,控制图什么时候用中心极限定理啊?(我说的是直接应用,不是原理)  详情 回复 发表于 2021-4-1 08:19
回复

使用道具 举报

药生
发表于 2021-4-1 08:19:37 | 显示全部楼层
永春膏药-小戴 发表于 2021-4-1 08:15
中心极限定理更大的作用是用于控制图,CPK、PPK计算需要考虑到样本分布模型。

你看,糊涂了吧,控制图什么时候用中心极限定理啊?(我说的是直接应用,不是原理)

点评

没有糊涂,控制图不需要知道样本、总体的分布模型,按正太分布计算即可。  详情 回复 发表于 2021-4-1 08:21
回复

使用道具 举报

药生
发表于 2021-4-1 08:21:31 | 显示全部楼层
sxp 发表于 2021-4-1 08:19
你看,糊涂了吧,控制图什么时候用中心极限定理啊?(我说的是直接应用,不是原理)

没有糊涂,控制图不需要知道样本、总体的分布模型,按正态分布计算即可。

点评

sxp
是吗?还没糊涂?控制图不需要?微生物属于泊松分布,你用正态?很多数据都不是正太的,悬浮粒子,还有很多即使是计量型数据,比如堆密度等,因为测量精度的问题,也不是 正态,还有如片重片厚等,因为可能在生产过  详情 回复 发表于 2021-4-1 08:29
回复

使用道具 举报

药生
发表于 2021-4-1 08:22:26 | 显示全部楼层
永春膏药-小戴 发表于 2021-4-1 08:09
中心极限定理的原理就是样本均值(注意是均值)的波动(注意是波动)符合正态分布,当样本容量无限接近与总 ...

不考虑总体分布,微生物你用什么控制图》

点评

微生物属于连续型数据?大哥,默认连续型数据才说正态,OK  详情 回复 发表于 2021-4-1 10:24
回复

使用道具 举报

药生
发表于 2021-4-1 08:24:59 | 显示全部楼层
永春膏药-小戴 发表于 2021-4-1 08:09
中心极限定理的原理就是样本均值(注意是均值)的波动(注意是波动)符合正态分布,当样本容量无限接近与总 ...

当样本容量无限接近与总体时,看到这个前提了吗?在我们制药行业,什么时候会出现样本容量无限接近与总体?所以这句话你说原理没错,但是实际应用会很容易误导。
回复

使用道具 举报

药生
发表于 2021-4-1 08:29:20 | 显示全部楼层
永春膏药-小戴 发表于 2021-4-1 08:21
没有糊涂,控制图不需要知道样本、总体的分布模型,按正态分布计算即可。

是吗?还没糊涂?控制图不需要?微生物属于泊松分布,你用正态?很多数据都不是正太的,悬浮粒子,还有很多即使是计量型数据,比如堆密度等,因为测量精度的问题,也不是 正态,还有如片重片厚等,因为可能在生产过程随时调整,也可能不是正态,你都不考虑分布,直接用?

点评

我怀疑你没有理解中心极限定理到底说啥?  详情 回复 发表于 2021-4-1 10:29
可以用,只要是连续型数据,控制图就可以用。除非柯西分布这种特例。  详情 回复 发表于 2021-4-1 10:25
回复

使用道具 举报

药徒
发表于 2021-4-1 09:13:04 | 显示全部楼层
赞,写的挺好
回复

使用道具 举报

药生
发表于 2021-4-1 10:24:53 | 显示全部楼层
sxp 发表于 2021-4-1 08:22
不考虑总体分布,微生物你用什么控制图》

微生物属于连续型数据?大哥,默认连续型数据才说正态,OK
回复

使用道具 举报

药生
发表于 2021-4-1 10:25:56 | 显示全部楼层
sxp 发表于 2021-4-1 08:29
是吗?还没糊涂?控制图不需要?微生物属于泊松分布,你用正态?很多数据都不是正太的,悬浮粒子,还有很 ...

可以用,只要是连续型数据,控制图就可以用。除非柯西分布这种特例。

点评

sxp
呵呵,控制图是可以用,但是不是都能用正态的,否则就没有数据转换这么一说了,而且,还有很多不能转换的,不合适转换的, 控制图是和分布息息相关的,不是一个正态分布包打天下,另外,计数类型的数据也是可以做控  详情 回复 发表于 2021-4-1 10:32
回复

使用道具 举报

药生
发表于 2021-4-1 10:29:21 | 显示全部楼层
sxp 发表于 2021-4-1 08:29
是吗?还没糊涂?控制图不需要?微生物属于泊松分布,你用正态?很多数据都不是正太的,悬浮粒子,还有很 ...

我怀疑你没有理解中心极限定理到底说啥?

点评

sxp
你想说啥?我真想学习,中心极限定理在控制图中是怎么应用的。  详情 回复 发表于 2021-4-1 10:35
回复

使用道具 举报

药生
发表于 2021-4-1 10:32:28 | 显示全部楼层
永春膏药-小戴 发表于 2021-4-1 10:25
可以用,只要是连续型数据,控制图就可以用。除非柯西分布这种特例。

呵呵,控制图是可以用,但是不是都能用正态的,否则就没有数据转换这么一说了,而且,还有很多不能转换的,不合适转换的,
控制图是和分布息息相关的,不是一个正态分布包打天下,另外,计数类型的数据也是可以做控制图的,控制图不局限于连续型数据。

点评

第一:中心极限定理与是不是正态没有任何关系; 第二:非连续数据有另外的要求进行数据分层与计算,有的分布你都无法套用分布模型,只能利用极大然概率推算可能的分布模型,在按照流程画控制图; 回到我们的不同点  详情 回复 发表于 2021-4-1 10:43
回复

使用道具 举报

药生
发表于 2021-4-1 10:35:47 | 显示全部楼层
永春膏药-小戴 发表于 2021-4-1 10:29
我怀疑你没有理解中心极限定理到底说啥?

你想说啥?我真想学习,中心极限定理在控制图中是怎么应用的。

点评

控制图的原理就是中心极限定理,没有这个原理, 你没有办法用控制图这个工具。  详情 回复 发表于 2021-4-1 10:49
回复

使用道具 举报

药生
发表于 2021-4-1 10:43:01 | 显示全部楼层
sxp 发表于 2021-4-1 10:32
呵呵,控制图是可以用,但是不是都能用正态的,否则就没有数据转换这么一说了,而且,还有很多不能转换的 ...

第一:中心极限定理与原数据是不是正态没有任何关系;
第二:非连续数据有另外的要求进行数据分层与计算,有的分布你都无法套用分布模型,只能利用极大然概率推算可能的分布模型,在按照流程画控制图;
回到我们的不同点,任何数据都可以应用中心极限定理(除非柯西分布),非正态分布有另外的算法与流程,我说的是中心极限定理与样本或者总体分布没有关系(除非柯西分布),而不是说什么数据都可以套正态分布画控制图。
回复

使用道具 举报

药生
发表于 2021-4-1 10:49:36 | 显示全部楼层
sxp 发表于 2021-4-1 10:35
你想说啥?我真想学习,中心极限定理在控制图中是怎么应用的。

控制图的原理就是中心极限定理,没有这个原理, 你没有办法用控制图这个工具。

点评

sxp
没有糊涂,控制图不需要知道样本、总体的分布模型,按正态分布计算即可。 这是你上边的回复,在你回复之前: 我的回复:以前有个流毒已久的说法:,只要数据足够多,比如超过30个,就不用考虑是否正态,因为中  详情 回复 发表于 2021-4-1 11:00
sxp
我说的不是原理,我从来没说原理错误,我是说,在控制图中强调中心极限定理是很容易掉坑里,因为在控制图的应用中是不需要直接使用中心极限定理的。 没有糊涂,控制图不需要知道样本、总体的分布模型,按正态分布计  详情 回复 发表于 2021-4-1 10:56
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×发帖声明
1、本站为技术交流论坛,发帖的内容具有互动属性。您在本站发布的内容:
①在无人回复的情况下,可以通过自助删帖功能随时删除(自助删帖功能关闭期间,可以联系管理员微信:8542508 处理。)
②在有人回复和讨论的情况下,主题帖和回复内容已构成一个不可分割的整体,您将不能直接删除该帖。
2、禁止发布任何涉政、涉黄赌毒及其他违反国家相关法律、法规、及本站版规的内容,详情请参阅《蒲公英论坛总版规》。
3、您在本站发表、转载的任何作品仅代表您个人观点,不代表本站观点。不要盗用有版权要求的作品,转贴请注明来源,否则文责自负。
4、请认真阅读上述条款,您发帖即代表接受上述条款。

QQ|手机版|蒲公英|ouryao|蒲公英 ( 京ICP备14042168号-1 )  增值电信业务经营许可证编号:京B2-20243455  互联网药品信息服务资格证书编号:(京)-非经营性-2024-0033

GMT+8, 2025-2-15 23:11

Powered by Discuz! X3.4运维单位:苏州豚鼠科技有限公司

Copyright © 2001-2020, Tencent Cloud.

声明:蒲公英网站所涉及的原创文章、文字内容、视频图片及首发资料,版权归作者及蒲公英网站所有,转载要在显著位置标明来源“蒲公英”;禁止任何形式的商业用途。违反上述声明的,本站及作者将追究法律责任。
快速回复 返回顶部 返回列表