5.1 假设检验的基本思想和基本方法

5.1 假设检验的基本思想和基本方法

假设检验的基本思想是小概率反证法,即指小概率事件(P<0.01或P<0.05)在一次实验中基本上不会发生。

1.原假设与备择假设

在假设检验中,为了对某一个总体参数进行检验,需事先提出某个假设,再根据样本统计量判断该假设是否真实。因此假设检验的过程中,首先要提出原假设H 0与备择假设H 1。原假设和备择假设是总体参数在逻辑上完备互斥的一对假设。原假设一般设置为研究者想收集证据予以反对的假设,而备择假设是原假设被拒绝后可供选择的假设,一般备择假设设置为研究者想收集证据予以支持的假设。例如,质量标准规定产品平均重量达到500 g为合格品,质量检验人员通常希望找出不合格产品,则研究者希望通过收集证据予以支持的是该批产品平均重量不足500 g。那么原假设H 0应设置为平均重量达到500 g,备择假设H 1应设置为该批产品的平均重量不足500 g。

因此在假设检验中,假设的方向由备择假设决定。通常先建立备择假设,备择假设H 1一旦建立,再根据完备与互斥性,那么原假设H 0也就确定了。注意原假设和备择假设中不能有重合的部分,也不能有遗漏的区域。

2.显著性水平α

由于检验法则是根据样本进行计算,总有可能做出错误的决策。如上面所述,在假设H 0实际上为真时,我们可能反而拒绝H 0,这种错误称为“弃真”。在假设H 0实际上不真时,我们又可能反而接受H 0,这种错误称为“取伪”。在确定检验法则时,我们应该尽可能使犯两类错误的概率都较小。然而一般而言,当样本容量固定时,“弃真”的概率变小,那么“取伪”的概率就会变大。如果要使得两类错误的概率都减小,只能增加样本容量。

假设检验是围绕对原假设内容的审定而展开的,如果原假设正确我们接受了,或原假设错误我们拒绝了,这都表明我们做出了正确的决定。但是,由于假设检验中的数据都是抽样统计数据,这些数据具有不确定性或随机性,根据这些数据得到的任何判断都具有得出错误结论的风险,例如医院的患者有可能被误诊,法庭上诉讼当事人有可能被误判。如果原假设正确,而我们却把它当成错误的加以拒绝,犯这种错误的概率用α表示,这个α就是假设检验中的显著性水平。

在统计学中,显著性水平α表示原假设为真时,拒绝原假设的概率,也就是估计总体参数落在某一区间内可能犯错误的概率。显著性是对差异的程度而言的,程度不同说明引起变动的原因也有不同:一类是条件差异,另一类是随机差异。检验中,依据显著性水平大小把概率划分为两个区间,小于给定标准的概率区间称为拒绝区间,大于这个标准则为接受区间。事件属于接受区间,原假设成立而无显著性差异;事件属于拒绝区间,拒绝原假设而认为有显著性差异。

因此假设检验中,我们必须事先设定显著性水平α,也就是设定避免这种风险的水平。显著性水平α是公认的小概率事件的概率值,通常取α=0.05或α=0.01。这表明,当作出接受原假设的决定时,其正确的概率为95%或99%。在实际问题中,我们主要控制“弃真”的概率,使其不大于α。这种只对“弃真”的概率加以控制,而不考虑“取伪”的概率的检验方法,称为显著性检验。

对于显著性水平的理解必须注意以下两点:

(1)显著性水平不是一个固定不变的数值,依据拒绝区间所可能承担的风险来决定。

(2)统计上所讲的显著性与实际生活工作中的显著性是不一样的。

3.假设检验的基本方法

假设检验首先提出原假设H 0与备择假设H 1,确定显著性水平。再用适当的统计方法确定假设成立的可能性大小,如可能性小于事先指定的小概率α,则认为原假设H 0不成立,即拒绝原假设H 0,接受备择假设H 1。若可能性大于事先制定的小概率α,则还不能认为假设成立,因此在实际解决问题的过程中,选择合适的原假设非常重要。

假设检验的具体步骤如下:

①根据研究的问题提出原假设H 0和备择假设H 1,原假设必须包含等号在内,而备择假设则视情况为不等于、大于或小于。

②设定显著性水平α,显著性水平的值将直接影响最终能否接受原假设。

③选择合适的检验统计量,计算出统计量的观测值。

④根据统计量和显著性水平确定临界点,给出拒绝域。

判断样本统计量所在的区域,如果在拒绝域内,则应拒绝原假设H 0,接受备择假设H 1,否则应接受原假设H 0

假设检验一般分为两种方法:临界值法与P值法。

(1)临界值法

计算检验统计量的样本观察值z和接受域的临界值z 0,判断样本观察值z是否落在统计量的接受域内,如果(双侧检验),则表示z值在接受域内,应接受H 0,否则应拒绝H 0接受H 1

(2)P值法

P值法中的P值是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著性水平。如果P≤α,则在显著性水平α下拒绝H 0,否则P>α,则在显著性水平α下接受H 0

这里需要注意的是:

①在用临界值法来确定H 0的拒绝域时,例如当取α=0.05时知道要拒绝H 0,再取α=0.01也要拒绝H 0,但不知道将α再降低一些是否也要拒绝H 0。而P值法给出了拒绝H 0的最小显著性水平,因此P值法比临界值法给出了有关拒绝域的更多信息。

②在Excel中我们可以运用Excel中的Z.TEST函数直接返回z检验的概率值P。

Z.TEST函数的功能是直接返回z检验的单尾概率值,即对于给定的假设总体平均值X,Z.TEST返回样本平均值大于数据集(数组)中观察平均值的概率,即观察样本平均值。Z.TEST函数语法为

Z.TEST(ar ray,x,sigma)

Z.TEST函数包括三个参数,其中

•array:必选,用于z测试的数值数组或数值区域。

•x:必选,要测试的值。

•sigma:可选,总体标准偏差(已知),如果忽略,则使用样本标准偏差。