计量资料统计推断

一、计量资料统计推断

在健康管理学研究中,常涉及对研究人群生命体征、化验指标等进行测量,从而推断研究目标总体情况。这些生命体征如心率、血压,化验指标如低密度脂蛋白胆固醇、糖化血红蛋白等都是计量资料。因此,想要在健康管理领域开展的研究得到可靠的结论,或者希望更好地阅读和理解相关文献来指导健康管理实践,学习和掌握计量资料统计推断方法必不可少。

(一)样本均数的抽样分布与抽样误差

假设一个随机变量x服从于总体均数为μ、总体方差为σ2的正态分布。在该总体中做一次样本量为n的随机抽样,计算该样本的均数1,由于有抽样误差的存在,故1一般不会等于总体均数μ。若以相同的样本含量,在该总体中随机抽样100次,每次抽取的样本,均可求出其样本均数i,即可得到100个样本均数。若将这100个样本均数视作一组新的变量值,就可绘制出关于样本均数的频数分布表。可以发现,在服从正态分布的总体中进行随机抽样,样本均数的抽样分布具有以下特点:

①样本均数不等于总体均数。

②各个样本均数之间存在差异。

③样本均数围绕着总体均数μ,呈现一个单峰对称的分布。

④当样本量足够大,可由数学中的大数定理推导出,均数的平均水平仍然落在总体均数μ之处,即样本均数分布的峰点仍然在μ之处。

⑤样本均数的分布较之原始变量值的分布更为集中,即样本均数的离散程度较小。

⑥样本均数的分布原则上与原始总体的分布保持一致,即来自正态分布总体的样本均数也服从正态分布,来自偏态分布总体的样本均数服从偏态分布,但在样本含量足够大,不论样本来自何种分布的总体,其均数的分布均近似于正态分布。

按此道理,若随机变量x服从正态分布,则样本均数x也服从正态分布。因此,若随机变量X~N(μ,σ2),则根据中心极限定理,样本均数x~N(μ,σx2)。可见,样本均数分布的离散程度,即同样可以用样本均数的标准差来衡量,通常称为均数的标准误(Standard Error of Mean,sx),可用其反映均数抽样误差的大小,其计算公式为

实际应用中,总体标准差σ通常未知,需要用样本标准差s来估计。此时,均数标准误的估计值为

由式(9.17)可知,均数标准误的大小与原始变量值的标准差成正比,与样本含量n的平方根成反比。在实际应用中,我们更倾向于通过增加样本含量来减小均数的标准误,从而降低抽样误差。

【例9.13】抽样调查某地20岁女大学生100人,获得其均数为165cm,标准差为3cm。试估计在此次抽样中所产生的抽样误差。

【解】由于已知样本量100和标准差3cm,可直接运用公式求出均数的标准误差。

(二)t分布

在前面样本均数的分布中曾经提到,从正态分布N(μ,σ2)的总体中随机抽样得到的样本均数x也应服从正态分布,记为。而对任一正态变量x均可作z变换,z=,针对样本均数的分布便有

在实际工作中,很多时候σx都未知,便常用sx来代替。当n较小时,上述变换称为t变换。

式中,统计量t也不再服从标准正态分布N(0,1)。英国统计学家W.S.Gosset于1908年以笔名“Student”发表论文,证明t值服从自由度ν=n-1的t分布。

t分布,又称Student t分布(Student’s t Distribution),记作t~t(ν)。图9.7所示为t分布的图形。

图9.7 不同自由度下的t分布图

t分布的图形具有以下3个特征:

①以0为中心,单峰对称。

②自由度越小,曲线的峰部越低,尾部越高;随着自由度的增大,t分布逐渐逼近标准正态分布;当自由度为∞时,t分布就是标准正态分布。

③由于t分布是与自由度有关的一簇曲线,其曲线下面积则是随自由度变化而变化的。一般地,在t分布的曲线下面积相同的条件下,自由度越大,则对应t界值的绝对值越小;同理,在t界值相同的前提下,自由度越大,则对应t分布的曲线下面积越小。因此,t界值表(附表2)就是联系t界值、自由度和曲线下面积的工具,可以通过已知自由度去完成t界值和曲线下面积间的互求。

具体地,在t界值表(附表2)中,横标目为自由度ν,纵标目为概率P,表中的数字表示当ν和P确定时,对应的t临界值(Critical Value)。该表分别给出了单侧概率(One-tailed Probability)和双侧概率(Two-tailed Probability)所对应的t临界值。在本书中,用tα,ν表示对应于单侧概率的t临界值,用tα/2,ν表示对应于双侧概率的t临界值,见图9.8。

图9.8 单、双侧t分布示意图

例如,当ν=23,单侧概率α=0.05时,由附表2中查得单侧t0.05,23=1.714:

当ν=23,双侧概率α=0.05时,由附表2中查得双侧t0.05/2,23=2.069:

同样地,在自由度相同时,值越大,t分布的尾部概率越小;同一自由度下,在t临界值相同时,双侧尾部概率为单侧尾部概率的两倍。

(三)总体均数的参数估计

参数估计指由样本统计量估计总体参数,是统计推断的重要内容之一。常用的估计方式有点估计(Point Estimation)和区间估计(Interval Estimation)两种。

点估计是使用单一的样本统计量直接作为总体参数的估计值,如直接用样本均数作为总体均数μ的估计值,或用样本率p直接作为总体率π的估计值。该方法表达简单,但未考虑抽样误差的影响,无法评价参数估计的准确程度。

区间估计(Interval Estimation)是将样本统计量与抽样误差结合起来,事先确定一个有较大概率包含总体参数的范围。该范围称为总体参数的置信区间(Confidence Interval,CI)。包含总体参数的概率记为(1-α),也称置信度。α值由研究者预先规定,一般取0.10,0.05或0.01,常取0.05。因此,在医学研究中,最常用的置信度是95%。一般地,置信区间由上、下两个置信限(Confidence Limit,CL)构成,较小的数值称置信下限(Lower Limit),而较大的数值则为置信上限(Upper Limit)。

根据总体标准差σ是否已知和样本含量n的不同,总体均数置信区间的估计方法一般分为两种,即t分布法和正态近似法。

1.t分布法

当σ未知且n较小(如n<30)时,统计量t分布,ν=n-1。在某置信度(1-α)下,t值满足-tα/2,ν<t<tα/2,ν,即

可由式(9.21)解出μ,即

该区间称为总体均数μ的双侧(1-α)置信区间,记为

一般地,总体均数μ的95%置信区间的含义可以理解为:由一次随机抽样所算得的这个区间包含总体参数μ的可能性为95%。也就是说,如果重复100次抽样,每次样本含量均为n,每个样本均按构建总体均数μ的置信区间,则在此100个置信区间中,平均有95个包含总体均数,5个不包含总体均数。切记,由于总体参数的唯一性,置信区间旨在强调区间的随机性,而非参数的随机性。

需要提出的是,任何一个置信区间都具备两个基本要素:一个是准确度,另一个是精密度。前者反映在置信区间包含总体参数的概率大小,由置信度(1-α)衡量。(1-α)越趋于1,该置信区间的准确度越高;反之,则越低。后者主要反映在置信区间的宽度上,由tα/2,νs衡量。一般来说,区间宽度越窄,估计的精度越高;反之,则越低。

【例9.14】抽样调查某地20岁女大学生25人,获得身高均数为165cm,标准差为3cm。试估计该地20岁女大学生平均身高的95%和99%置信区间。

【解】已知n=25,ν=25-1=24,查t界值表:α=0.05时,t0.05/2,24=2.064;α=0.01时,t0.01/2,24=2.797,则

故该地20岁女大学生平均身高的95%置信区间为(163.76,166.24)cm,而99%置信区间为(163.32,166.68)cm。可见,如果保持样本含量不变,将置信度由95%提高到99%,则置信区间由窄变宽,估计的精度下降。

这提示我们,置信区间估计的精度与s和n有关,但s反映生物学上固有的个体差异。对某个总体而言,其个体变异是客观存在的,无法人为地增加或减少,故若想提高估计的精度,应考虑增加样本量n,从而减小tα/2,ν

2.正态近似法

①当σ已知时,参照上述推导,可得总体均数μ的双侧(1-α)置信区间为

不过,实际工作中,总体标准差σ已知的情况较为少见,而多见下面这种情况。

②当σ未知但n足够大时(n≥30),可以认为t分布近似服从标准正态分布,即用zα/2代替公式(9.22)中的tα/2,ν,则总体均数μ的双侧(1-α)置信区间为

【例9.15】将例9.15中的样本例数增大到100,若其均数仍为165cm,标准差仍为3cm。试估计该地20岁女大学生平均身高的95%置信区间。

【解】由于n=100>30,可计算总体均数的双侧95%置信区间:

故该地20岁女大学生平均身高的95%置信区间为(164.41,165.59)cm,表示该区间有95%的可能包含该地20岁女大学生的平均身高。

(四)假设检验基础

【例9.16】通过大规模调查得知,某地新生儿的头围均数为34.00cm。为研究该地某矿区新生儿的发育状况,现从该矿区随机抽取新生儿40人,测得其头围均数为33.50cm,标准差为1.95cm,故认为该地矿区新生儿头围均数低于一般新生儿的头围均数。该结论是否正确?

【解】该矿区40名新生儿的头围均数33.50cm为样本均数,由抽样误差的概念可知,即使在同一总体中抽样,样本均数与总体均数间也会存在差别,因此不能直接通过比较33.50cm与34.00cm的大小得出两总体均数有差别的结论。

要回答这个问题,需通过假设检验的方法。

首先假设两个总体均数相同(原假设),然后依据样本信息计算恰当的检验统计量。若原假设成立时,获得现有样本统计量及其更极端情况的概率理论上不应太小,即“获得现有样本统计量及其更极端情况”不为小概率事件。但若该事件就为小概率事件,由于小概率事件在一次随机实验中几乎不可能发生,而实际就已发生。这时,我们得考虑是否原假设是错误的,原假设本来不成立,因而拒绝原假设而接受其对立面(备择假设);反之,则不能拒绝原假设。可见,假设检验的思想是基于小概率事件原理(即小概率事件在一次实验中几乎不可能发生的原理)而做出统计推断的一种思维逻辑。

假设检验基本步骤如下:

(1)建立检验假设,确定检验水准

假设有两种:一个为原假设(Null Hypothesis),记为H0;另一个为备择假设(Alternative Hypothesis),记为H1。H0与H1构成一个完备事件。

例9.16中,H0∶μ=μ0,即该地矿区新生儿头围均数μ与一般新生儿头围均数μ0相同。该假设是计算检验统计量和确定P值的依据,通常与我们要推断的结论相反。H1∶μ≠μ0,即该地矿区新生儿头围均数μ与一般新生儿头围均数μ0不同。它是在拒绝H0的情况下而接受的对立假设。

根据备择假设的不同,假设检验又分为双侧检验和单侧检验。

①备择假设为H1∶μ≠μ0,包括μ>μ0和μ<μ0两种情况,即研究者分析的目的是推断两总体均数是否不同。不管矿区新生儿的头围均数是大于一般新生儿的头围均数,还是小于一般新生儿的头围均数,两种可能性都存在,研究者都同样关心,称为双侧检验(Two-sided Test)。

②备择假设为H1∶μ>μ0(或H1∶μ<μ0),即根据专业知识有充分把握排除某一侧。例9.16中,若已知矿区新生儿头围均数不会高于一般新生儿,或者研究者只关心矿区新生儿的头围均数是否低于一般新生儿的情况,此时备择假设只选择H1∶μ<μ0,称为单侧检验(Onesided Test)。

双侧检验与单侧检验应如何选择,需根据研究目的和专业知识而定。又如,比较两种药物疗效时,若研究者能从专业上排除一种药物不会差于另一药物时,只考虑前者是否优于后者,则用单侧检验;若不能确定两种药物谁好谁差时,则用双侧检验。双侧检验结论更为稳妥,故常用双侧检验。

检验水准(Level of a Test)又称显著性水平(Significant Level),记为α,即预先规定的判断小概率事件的概率尺度。它是假设检验中判断总体参数是否有差异的界值概率,一般取0.05或0.01(小概率事件界值)。

(2)计算检验统计量

检验统计量(Test Statistic)是在假定H0成立的条件下,样本统计量经转换后服从特定分布的标准值,不同的检验统计量涉及的统计分布不同,如t统计量服从t分布,χ2统计量服从χ2分布。

例9.16中,在H0∶μ=μ0的条件下,即矿区新生儿头围总体均数与一般新生儿头围总体均数无差别,来自μ=μ0的总体,又已知样本标准差s和样本含量n,根据t分布原理,t=分布,ν=n-1。利用样本数据可以计算获得t值,将t值对应的尾部概率P与检验水

准α进行比较而得出推断结论。

实际工作中,可以根据研究设计、资料的类型和适用条件等选择适当的检验统计量,而假设检验的方法通常是以检验统计量来命名的,故本例的假设检验方法称为t检验(t Test)。

(3)确定P值,作出统计推断

P值是指在H0成立的条件下,统计量出现目前值及其更极端值的概率。可以根据计算出的统计量,查相应界值表来确定P值,并将P值与预先确定的检验水准α进行比较。若P≤α,说明在H0成立时,获得此统计量值及其更极端值的事件是一个小概率事件,与小概率原理“小概率事件在一次试验和观察中几乎不会发生”相悖,因此怀疑H0的正确性,则拒绝H0,接受H1。反之,若P>α,就没有理由拒绝H0。例9.16中,若P≤α,按检验水准α,拒绝H0,接受H1,差异有统计学意义,可以认为矿区新生儿与一般新生儿的头围均数不同;若P>α,按检验水准α,不拒绝H0,差异无统计学意义,尚不能认为矿区新生儿与一般新生儿的头围均数不同。

(五)t检验

以t分布为基础的检验称为t检验。根据研究设计和资料的性质,t检验包括单样本资料的t检验、配对样本资料的t检验和两独立样本资料的t检验等。

t检验的应用条件:要求样本是独立来自正态分布总体的随机样本(正态性);两独立样本均数比较的t检验,还要求总体方差相等(方差齐性)。

1.单样本资料的t检验

单样本资料t检验(One Sample t Test),适用于样本均数x与已知总体均数μ0的比较,实质是推断该样本来自的总体均数μ与μ0是否有差别。已知总体均数μ0,一般μ0为标准值、理论值或经过大量观察得到的较稳定的指标值。

单样本资料t检验的计算公式为

其中,s为样本标准差,n为样本含量。

【例9.17】对例9.16的资料进行假设检验。

【解】本例中,已知总体均数μ0=34.00cm,一个样本均数=33.50cm,样本标准差s=1.95cm,样本含量n=40(已知该矿区新生儿头围服从正态分布),要推断该样本所代表的总体均数μ与μ0是否不同,可采用单样本资料的t检验。

【解】假设检验步骤如下:

(1)建立检验假设,确定检验水准

H0∶μ=μ0,即该矿区新生儿与一般新生儿头围均数相同;H1∶μ≠μ0,即该矿区新生儿与一般新生儿头围均数不同;α=0.05。

(2)计算检验统计量

(3)确定P值,作出统计推断

查附表2,t0.05/2,39=2.023,=1.622<t0.05/2,39,得P>0.05,因此按照α=0.05检验水准,不拒绝H0,差异无统计学意义,尚不能认为该矿区新生儿的头围均数与一般新生儿不同。

2.配对样本资料的t检验

配对样本资料的t检验(Paired t Test),适用于配对设计定量变量资料均数的比较,其目的是推断两相关样本所代表的未知总体均数是否不同,以判断处理因素是否有作用。

配对设计(Paired Design)是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机分配到两种不同处理组中,配对设计能很好地控制非处理因素对结果的影响。其包括异体配对和自身配对。

配对设计资料的分析着眼于每一对中两个观察值的差值d,这些差值构成了一组资料,可以计算得到差值的样本均数d。理论上,若两处理无差别,则差值d的总体均数μd应为0。因此,可将配对设计资料的t检验看成样本均数d与总体均数0比较的单样本资料的t检验,以推断代表的总体均数μd是否等于0。

检验假设:H0:μd=0,即差值的总体均数为0;H1:μd≠0,即差值的总体均数不为0。

检验统计量为

式中,为差值的均数;为差值的标准差;n为对子数。

【例9.18】某医院采用两种血凝仪检测15名健康成年男子血浆纤维蛋白原含量(g/L),检测结果见表9.10。试问:两种血凝仪检测结果是否不同?

表9.10 两种血凝仪检测15名健康成年男子血浆纤维蛋白原(g/L)

【解】本例为自身配对设计,每个标本分别接受两种仪器检测,结果成对。计算两组血浆纤维蛋白原含量的差值d(表9.10),进行配对t检验:

(1)建立检验假设,确定检验水准

H0∶μd=0,即两种血凝仪检验结果差值的总体均数为0;H1∶μd≠0,即两种血凝仪检验结果差值的总体均数不为0;α=0.05。

(2)计算检验统计量

本例中,n=15,=0.116,sd=0.148,按公式(9.25):

(3)确定P值,作出统计推断

查附表2,得

本例中,t>t0.01/2,14,P<0.01,按照α=0.05检验水准,拒绝H0,接受H1,差异有统计学意义,可以认为两种血凝仪检测结果不同。

3.两独立样本资料的t检验

两独立样本资料的t检验(Two Independent Samples t Test),适用于完全随机设计(Completely Random Design)两样本均数的比较,其目的是推断两样本所来自的总体均数是否不同。完全随机设计(Completely Random Design)是将受试对象通过一次随机分组分配到两组中,每组对象分别接受一种处理,再比较两组的处理效应。另外,从两个总体分别随机抽取一定数量的观察对象,测量某项定量指标值,也属于两独立样本资料,也可采用两独立样本资料的t检验,以推断两总体均数是否不同。

两独立样本资料的t检验要求两样本均独立来自正态分布总体,且总体方差相等,即σ2122

其检验假设:H0∶μ12,两总体均数相等;H1∶μ1≠μ2,两总体均数不等。

统计量计算公式为

式中,x1和x2为两个样本均数,为两样本均数之差的标准误,sc2为合并方差。

【例9.19】为研究不同饲料对雌性幼年小鼠肝中铁含量的影响,将20只雌性幼年小鼠随机分配到A、B两个不同饲料组,每组10只,喂养一段时间后,测得鼠肝中铁含量(μg/g),数据见表9.11。试问:不同饲料喂养后,鼠肝中铁含量是否不同?

表9.11 A、B两组鼠肝铁含量(μg/g)

【解】经检验两组鼠肝中铁含量满足方差齐性(F=2.25,P=0.242),以下进行两独立样本资料的t检验。

(1)建立检验假设,确定检验水准

H0∶μ12,即两种饲料喂养后鼠肝中铁含量总体均数相同;H1∶μ1≠μ2,即两种饲料喂养后鼠肝中铁含量总体均数不相同;α=0.05。

(2)计算检验统计量

由本例算得

=2.669μg/g,n1=10,s1=0.852μg/g,=1.579μg/g,n2=10,s2=0.568μg/g

代入公式(9.26):

(3)确定P值,作出统计推断

查附表2,得

本例中,t>t0.01/2,18,P<0.01,按照α=0.05检验水准,拒绝H0,接受H1,差异有统计学意义,可以认为两种饲料喂养后鼠肝中铁含量不同。

(六)假设检验的两类错误

假设检验是根据有限的样本信息在假定H0成立的前提下,计算检验统计量并以其概率P值作为推断依据,对总体做出的统计推断,不论做出哪一种推断,都可能犯错误,见表9.12。

表9.12 假设检验的两类错误

以t检验为例,说明假设检验的两类错误。当实际情况为H0成立时,由于抽样的偶然性,由样本数据计算得到的检验统计量t≥tα,P≤α,假设检验结论拒绝了原本成立的H0所犯的错误称为Ⅰ类错误或Ⅰ型错误(TypeⅠError),亦称假阳性错误。检验水准α即是预先规定的允许犯Ⅰ型错误的最大概率。

当实际情况为H0不成立时,由于抽样的偶然性,由样本数据计算得到的检验统计量t<tα,P>α,假设检验结论不拒绝本不成立的H0所犯的错误称为Ⅱ类错误或Ⅱ型错误(TypeⅡError),又称假阴性错误,其概率用β表示。β只取单侧,取值大小一般未知,必须在知道两总体的标准差、总体均数差值和样本含量时才能算出。1-β称为检验效能(Power of Test)或把握度,表示当两总体确实有差别时,按照规定的检验水准,能做出有统计学显著性、发现其差别的能力。

α与β的关系如图9.9所示,α越小,β越大;相反,α越大,β越小。若要同时减小α与β,可以通过增加样本含量来实现。

图9.9 Ⅰ型错误与Ⅱ型错误示意图

(七)假设检验的注意事项

1.严密的研究设计是假设检验结论正确的前提

假设检验采用的样本的获取必须遵循随机化原则,有足够样本量,能代表相应总体,同时,组间应具有可比性,即除研究因素以外其他可能影响结果的因素在对比组间应尽可能相同或相近。只有在严密的研究设计的基础上,假设检验的结论才有意义。

2.双侧检验与单侧检验的选择

单双侧检验的选择需根据研究目的和专业知识确定。就t检验而言,单侧检验与双侧检验的t值计算过程相同,只是t界值不同,在相同检验水准的情况下,tα,ν<tα/2,ν,对同一资料作单侧检验更容易获得“有差别”的结论。因此,采用单侧检验应在研究设计阶段做出决定,不应在算得检验统计量以后为了得到“有差别”的结论而主观选择。若缺乏专业依据,一般应选用双侧检验。

3.检验方法的选用及其适用条件

在实际应用中,应根据研究设计、资料类型和分布、适用条件等因素选择恰当的假设检验方法。如t检验,可用于两组定量资料均数的比较,要求资料满足正态性和方差齐性条件。资料的正态性可用正态性检验判断,或直观地通过频数表以及直方图进行判断。若数据呈明显偏态,可进行数据变换,转换成正态分布或近似正态分布资料后进行分析,或者采用基于秩次的非参数检验。完全随机设计两独立样本资料的t检验要求方差齐性。若方差齐性检验显示两总体方差不齐,宜采用t′检验,或采用数据变换的方法使方差齐性后进行t检验,也可采用基于秩次的非参数检验。如需进行多组定量变量资料均数的比较,应采用方差分析。若进行定性变量资料的率的比较,则可采用z检验或χ2检验。

4.正确理解P值的含义

假设检验是根据P值的大小,与事先确定的检验水准α比较做出拒绝H0或不拒绝H0的结论。P值是指在H0成立的条件下,出现当前统计量甚至更极端值的概率。P值越小,只能说明根据本次试验结果越有理由拒绝H0,但P值的大小并不表示总体间差别的大小。假设检验只能做出拒绝H0或不拒绝H0的判断,总体参数间差别的大小推断需进行差值的可信区间的计算。

5.假设检验的结论不能绝对化

假设检验的统计结论的正确性是以概率为前提的,无论拒绝H0还是不拒绝H0都有可能犯错误,所以结论在表述上应避免使用“肯定”“一定”之类的词语。在报告结论时,最好列出确切的概率P值(使用统计软件)或P值的范围(查统计表)。当P值接近检验水准时,下结论应慎重。

6.有统计学意义不等于有实际意义

假设检验结论差异有统计学意义,表示在H0成立的条件下,得到如此样本的可能性很小,因而拒绝H0。此时,只能说差异有统计学意义,但并不说明发现的差异一定有实际意义。从t检验的公式可以看出,假设检验的统计结论与样本大小有关。当样本量足够大时,标准误趋于零,即使样本均数相差很小,也能得到足以拒绝H0的t值和P值。如应用某种降血压的药物后舒张压改变值的均数为5mmHg,只要样本含量足够大,经t检验就可能得出P<0.05,按照α=0.05检验水准拒绝H0的统计结论,但这并不意味着病人舒张压的改变值5mmHg对应药物有效的临床意义。对假设检验结果实际意义的判断一定要结合专业知识,只有当专业上和统计学上都有意义时,研究结果才有实用价值。