本
文
摘
要
刚下课,来答一发。
上面大家都在说意义,其实理解意义要在理解概念的基础上,也就是假设验证到底怎么来的,所以接下来,我来说说假设检验的计算过程。相信看完之后你就理解相关的概念了。
假设验证在科研和实际统计中有着极其广泛的用途,是最常用统计方法之一。
基本步骤如下:
①设立 零假设(null hypothesis) 和 对立假设(alternative hypothesis)
②做实验,做抽样,根据样本做分析
③比较如果在零假设成立的情况下,样本发生的概率
④得出结论
我这里有三道例子,是假设验证在三种情况下的应用,通过例子,我们来不断认识熟悉假设验证。
一粒。
有一天,我们要设计一条道路路,结果发现与要先统计每小时内这段道路要开过多少辆卡车,才能确定路面强度,于是你就问当地有关部门,得到的答案是平均每小时经过71辆卡车。所以你就想用假设验证,看一下有关部门说的是不是真的。于是乎,你在一个月的期间随机做了50次调查,每次取样一个小时内载重卡车的通过数量。通过分析这50个样本,得到样本平均数是 74.1,样本标准差是 13.3
那么这样的一个样本能不能说明有过部门说的到底是对还是错呢?
先说一下显著性水平的概念,显著性水平(significance level)其实就是置信区间(confidence interval)中的那个α ,就是有多大的把握说它不对,α=0.1 就是有90%的把握说他不对,α=0.01 就只有99%的把握说假设不对。
相关知识可以看我之前的一个回答(
如何理解95%置信区间? - Zhang Calvin 的回答;)
所以现在问题来了,当要求显著性水平α=0.1 时候,你能不能说相关部门说的是对的。
①假设:相关部门说得对,于是 总体期望 μ=71
②实验中,样本平均值x¯\bar{x} =74.1 标准差s=13.3
③计算
(注:这里的Z就是正态分布里的那个Z, 你去查查正态分布表就知道了)
所以Zµ=(74.1-71)/(13.3/√50)=1.648
而, Z0.1Z_{0.1}^{} =1.2816(查表差的,查正态分布 percentage 那张)
然后Z0.1Z_{0.1}^{} <Zµ 这又说明什么呢,来看看我们的Z 到底表示什么,α到底表示什么,看图:
而这个时候Zµ>Z0.1Z_{0.1}^{} 表明Zµ 在Z0.1Z_{0.1}^{} 的右侧,你看阴影面积是不是比Z0.1Z_{0.1}^{} 还小,所以否定区间比10%还小,所以假设被推翻。
【显著性水平】就是 Zα和图形以及x轴所围成的面积所代表的概率。代表的是否定区间,也就是有多大的几率否定假设。
【p值】就是上图中的阴影面积所代表的概率大小。代表的是样本事件发生的概率。
于是我们在推倒假设之前需要做比较:
你看题中α=0.1,所以我们得到的结果有90%的把握,Zµ>Z0.1Z_{0.1}^{} 也就是说,Zµ处在否定区间,也就是,Zµ有90%的概率去否定假定。换句话说就是我有90%的把握去否定相关部门说的每小时经过71辆卡车。
为了更深刻的理解【显著性水平】,我们只改变显著性水平,其他都不变,看看会发生什么,就知道显著性水平在假设验证中到底起一个怎样的作用。
那么当要求【显著性水平】α=0.01 时候,你能不能说相关部门说的是对的。
Z0.01Z_{0.01}^{} =2.3263 (还是查表得的,你看表里写的100α,所以表里查的)
Zµ还是和上面的样本一致,因为样本没有变,所以还是1.648 (计算步骤查上面)
这次Z0.01Z_{0.01}^{} >Zµ,意味着Zµ围成的阴影面积大于Z0.01Z_{0.01}^{} ,也就是没有99%的把握说推翻假设。
换句话说我没有99%的把握去否定相关部门说的每小时经过71辆卡车。
于是,这两个问题连起来,我们就可以说,我们有90%的把我说相关部门说错了,但是没有99%的把握说相关部门说的是错的。
这下你应该理解了【显著性水平】的概念了吧,还没有?没关系,再来一粒。
第二粒。
再说一个例子。
有一种钢材因为在工程中出现锈蚀,所以被监理要求更换钢筋货源。而施工单位说“我们95%的钢筋都没有问题的啊。”
于是监理派人抽查某批货的钢筋,取了60个样品做实验,发现其中有6个出现锈蚀。
根据实验有没有95%的把握说这批货里锈蚀的钢筋超过了总量的5%。
有没有95%的把握说这批货里锈蚀的钢筋超过了总量的5%。
这句话有点绕,再来一遍,
有没有95%的把握说这批货里锈蚀的钢筋超过了总量的5%。95%的把握就是 显著意义α=0.05,5%的锈蚀=样本中锈蚀的个数为60*5%=3.
假设 HoH_{o}^{} :这批货的锈蚀钢筋少于总量的5%
Zp=(0.1-0.05)/√((0.05*0.95)/60)=1.777
Z5Z_{5}^{} =1.6449
Zp>Z5Z_{5}^{} 也就是表示在0.05的显著性水平的情况下,我们可以否定假设。换句话说就是我有95%的把我说这里的锈蚀钢筋超过5%。
这下基本就懂了吧,什么!!还不懂,再来一粒。。
第三粒。
有一次一个研究院要研究小学生运动与身体灵活度之间的关系,于是在不做运动的小学生中随机抽取了37个人,作为第一组;组然后又在经常参加体育活动的小学生中随机抽取了37个人,作为第二组。分别对两组的小学生进行测试,发现第一组的灵活程度的平均值是 31.68 ,方差是 4.56;第二组灵活程度的平均值是 32.19 ,方差是4.34;设定的【显著性水平】α=0.05。
假设:灵活度和运动之间没有关系((µ 1 − µ 2) = 0)
把平均数和方差带进公式,太复杂了不打公式了,反正算出Z(µ 1 − µ 2)= -0.476
Z5Z_{5}^{} =1.6449(查表得出来的,表在上面)
因为Z(µ 1 − µ 2)是负数,再看一遍否定区间的判断
Z(µ 1 − µ 2)= -0.476 > —Zα= -1.6449
所以不在否定区间,所以你没有95%的把握说灵活度和运动之间有关系。没有95%的把握说灵活度和运动之间有关系。
差不多懂了吧!如果有哪里不对或者哪里疑惑,欢迎评论,有问必答~
peace~