欢迎您注册蒲公英
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 蜗牛98 于 2016-2-16 16:27 编辑
统计杂谈之假设检验和P值 假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。 关于假设检验我们通过下面一个例子,边计算,边进行说明。 例题: 对某产品制粒工序产品的产量统计,已知上一年的年平均产量为72.2kg。今年生产的100批该颗粒的平均产量是71.8kg,产量数据的标准差为0.4kg。这两年的产量是否相同? 解: 1.对于这个问题,通常有两种结果:两年的颗粒产量没有什么区别和两年的颗粒产量有区别。 根据这两种结果会产生两种相应的假设,两个假设分别称为"原假设"和“备择假设”。通常在原假设都认为比较的双方没有区别(不管是不是和你预期不一样,因为有时候我们的预期是两者的不同,但是在假设检验中的原假设就是认为两者一致) 原假设(H0,原假设通常用H0表示):两年的颗粒产量一致,均值μ=72.2kg。如果接受原假设,则说明去年的72.2kg和今年的71.8kg,是在正常范围内的波动,实质上和去年的产量差不错,不需要特别的关注。 那么备择假设就是在原假设被否定后需要接受的假设,通常是与原假设相反的结果。 备择假设(H1,备择假设通常用H1表示):两年的颗粒产量不一致,就是μ≠72.2kg。如果接受了H1,则说明今年的颗粒产量要比上一年的低,就有麻烦了。 2. 产量数据是连续随机数据,符合正太分布。 如果H0正确,需要计算今年产量数据出现的概率是多少,如果得到的概率太小可能会拒绝H0而接受H1,就是计算出得到颗粒产量均值是71.8,标准差是0.4的概率是多少。 假设原假设是正确的,计算这个数据产生的概率,首先考虑的是抽样样本的正太分布。样本的数据量是100>30,说明样品抽样样本均值的分布符合标准正太分布。学习过统计杂谈之样本均值的抽样分布的同学应该知道,抽样样本的均值等于总体样本的均值μ=72.2,抽样样本的总体标准差,通过样本的标准差进行估算σ≈S/sqrt(n)=0.4/ sqrt(100)=0.4/10=0.04。 3. 因为抽样样本的分布符合标准正太分布,这里要计算的是标准z值 z=|μ-X|/σ=|72.2-71.80|/0.04=0.4/0.04=10 好吧,这个z值够大,大家知道在正太分布中μ±3σ的区域的占整个面积的99.73%,也就是数据出现在3σ外的概率一共才0.27%,在这里z=10的时候,大概查了一下表,出现在这个位置的概率大概是6.22E-21。这个出现的概率值我们通常称为p值。 4. 通过计算我们知道,均值为71.8,标准差0.4的数据,在原假设中出现的概率p=6.22E-21。在一般的假设中会给出显著水平α值,通常为0.05或0.01.当p<α的时候,我们拒绝原假设,接受备择假设。 也就是说,我们拒绝了两年的生产数据相同的假设,从而接受两年的生产数据不同的备择假设。就是说今年的颗粒产量比去年底,已经成为事实。针对产量的降低,需要生产部门对原因进行调查了。 |