本
文
摘
要
假设检验是由统计学家费舍尔提出的。当时费舍尔在剑桥大学任职,英国最出名的是什么?下午茶。他们一群专家学者每周二也会聚在一起喝下午茶。有一次下午茶的时候,来了一位女士,这位女士告诉他们:一杯茶,即使茶和奶的比例相同,先加茶后加奶与先加奶后加茶味道是完全不一样的。那这群科学家肯定不信啊,相同的配方,只是先后顺序不同,味道还能不一样了?要是普通人可能说下次去试试也就过去了,但是他们是科学家啊,要大胆假设小心验证。首先假设这位女士没有能力区分茶奶与奶茶。然后他们泡了一杯茶,让这位女士分辨它是先加了茶还是先加了奶。结果这位女士说对了,但是就一次,即使盲猜也有50%的概率猜对,所以他们重复进行了8次实验,这位女士都说对了。而如果靠猜全部猜对的概率只有0.5^8,这个概率很小,当小概率时间发生的时候,我们更倾向于认为原假设是错误的。假设检验的基本思想就是小概率事件不会发生。
在现实世界,小概率事件有可能发生,只是发生的概率较小,假设检验只是在统计学意义上判断假设是否成立。
假设检验总体来说分为两步,第一步:对总体参数进行假设;第二步:利用抽样数据判断这个假设是否成立。
具体实施,需要5 步:
第一步,建立需要检验的假设,一般来说,被检验的假设称为原假设,记为H0;原假设的反命题被称为备择假设,记为Ha。
建立假设时,我们一般习惯于将我们想要得到的结论放在备择假设中。还有一个习惯,就是将等号放在原假设中。
假设检验分为双尾检验和单尾检验,判断是双尾检验还是单位检验只需要看备择假设即可:
如果备择假设是不等号,就是双尾检验;,如果备择假设是大于或小于号就是单尾检验,大于号时是右尾,小于号就是左尾。双尾还是单尾在形成拒绝域的时候至关重要,但是对检验统计量并没有什么影响。
假设我们现在调查全国人民的平均身高是否为170cm,
首先我们建立需要检验的假设,原假设就是全国人民的平均身高=170cm,备择假设就是全国人民的平均身高不等于170cm。
因为备择假设是不等号,所以他是双尾检验。
第二步,选择合适的检验统计量并确定它服从的概率分布,进行计算。
对于单个均值μ来说,它的样本统计量就是X ̅,根据中心极限定理,
它的检验统计量需要分为两种情况
继续我们上面的例子,假设σ^2=400,n=100,X ̅=175cm那么这里的检验统计量就是
第三步,查表确定关键值。
关键值是判断是否拒绝原假设的的临界值,拒绝域是由原假设被拒绝的样本观测值所组成的区域。
关键值与拒绝域需要根据检验统计量的概率分布,显著性水平α以及是单尾检验还是双尾检验来确定。
概率分布的确定遵从
σ^2已知,z分布
σ^2未知,t分布
非正态小样本不可估计
我们继续上面我们的例子,σ^2已知,所以我们这里用Z分布。
如果我们希望原假设成立,那么抽样调查计算出来的X-与170cm相比,既不能太低,也不能太高,所以对于双尾检验来说,拒绝域在左右两侧尾部。
显著性水平是5%,那么拒绝域的总面积就是5%,也就是概率分布的左右尾部的概率分别为2.5%。如果检验统计量服从正态分布,那么 查正态分布的累计概率分布表就可以确定关键值是1.96。
但是如果我们的原假设改为
那么备择假设就是
所以,它是单尾检验。也就是说如果我们希望原假设成立,那么抽样调查计算出来的样本均值X-与170cm相比,不能比170cm高太多,所以它的拒绝域在右侧尾部。显著性水平是5%,因此,右侧尾部的面积就是5%,查表我们可以知道,关键值就等于1.65。
第四步,比较检验统计量的绝对值与关键值的大小,如果检验统计量的绝对值大于关键值,说明检验统计量会落在拒绝域内,那么就需要拒绝原假设。
第五步,下结论
这里我们要注意,如果检验统计量没有落在拒绝域内,我们不能说接受原假设,而只能说不能拒绝原假设。