混杂及其控制

第十章 混杂及其控制

问题1 男性牛奶摄入量与皮肤癌有关联吗?女性中呢?

答:男性中未发现皮肤癌发病率随牛奶摄入量的增加而上升或下降,两者无显著关联。女性中同样未发现皮肤癌发病率与牛奶摄入量有显著关联。

问题2 男性、女性数据合并后,得到什么结果?为什么?

答:男性、女性数据合并后,发现皮肤癌发病率随牛奶摄入量的增加而上升。该结果与男性、女性分别分析的结果不一致。很显然,这是由于合并数据中性别这一外来因子所致。这种由于一个或多个外来因子的存在,掩盖或夸大了研究因素与疾病(或事件)的联系,从而部分或全部地歪曲了暴露因素(牛奶摄入)与疾病(皮肤癌)之间的真实联系的现象称为混杂(confounding)。

问题3 结合本例,说明混杂因素(confounder)的特征。

答:由上例可见,男性、女性皮肤癌的发病率不同,性别是研究疾病(皮肤癌)的一个危险因素;男性、女性牛奶的摄入量不同,即性别与本次研究的暴露因素(牛奶摄入量)有关联。可见,混杂因素具有:①是研究疾病的独立危险因素;②与所研究的暴露因素存在统计学联系;③不是暴露因素与疾病因果链中的一个环节或中间变量等三个特征。混杂因素可通过制作混杂因素路径图而容易识别(如右图,请注意箭头的方向和意义:→表示病因学关联,↔表示有关联)。

混杂因素路径图(1982年Schlesselman提出)

问题4 居住在高速公路附近的居民有较高的肺癌发病率,提示机动车尾气造成的空气污染增加肺癌风险。这个推断是否正确?为什么?

答:这个推断有可能是错误的。居住在高速公路附近的居民有较高的肺癌发病率,可能是因为这些居民有较高的吸烟率所致。一般来说,社会经济地位(SES)较高的人吸烟率较低,且居住在远离高速公路的区域。吸烟在其中可能起了混杂作用,导致错误地估计了机动车尾气污染与肺癌的真实关联。

问题5 请问:男性与女性研究对象的OR值分别是多少?性别在该研究中是否为混杂因素?

答:OR=ad/bc=(154×200)/(193×398)=0.401

OR=ad/bc=(86×167)/(75×333)=0.575

ORcrude=ad/bc=(240×367)/(268×731)=0.450

ORM-H=0.457,95%CI:0.368~0.567

可见,无论在男性、女性还是全人群中,适宜的支持水平与高血压患病情况均呈负向关联。本例中,分层后各层OR的点估计有一定的差别,差别是否达显著水平需要进行统计学检验,如果差别达显著水平,则提示性别可能有效应修饰作用。本例中两者的差别未达显著水平,可认为OR=OR。此外,ORcrude与ORMH亦无显著差别,说明将男性、女性合并分析时,性别因素没有掩盖社会支持水平与高血压的真实关联。因此,性别不是混杂因素。

问题6 请问在全人群中,高血压与乳腺癌危险性之间关联性如何?该医生是否需要将年龄作为一个混杂因素进行考虑吗?

答:在全人群中,由于各年龄组高血压与乳腺癌的比值比(OR)均为1.0,可见,高血压与乳腺癌危险性无显著关联。将各年龄组合并,不考虑年龄的影响时,高血压对乳腺癌的OR=0.891,95%CI:0.691~1.148,两者的关联未达显著水平。使用Mantel-Haenszel方法分层分析计算得到的调整ORM-H=1.00,95%CI:0.757~1.321。可见,年龄这一因素未完全掩盖高血压与乳腺癌的真实联系,但使两者的关联被部分歪曲了。因此,该医生需要将年龄作为一个混杂因素进行调整。

问题7 请问硅暴露是否为混杂因素?如果硅暴露确实是饮水中铝暴露与阿尔茨海默病危险性之间关联性的混杂因素,请估计根据硅暴露调整后的RR值及其95%可信区间,并检验阿尔茨海默病是否确实与铝暴露有关联。

答:按硅暴露水平分层分析后发现,无论在高水平还是低水平硅暴露人群中,高水平铝暴露及低水平铝暴露人群阿尔茨海默病的发病率无显著关联,而当不考虑硅暴露水平时,发现高水平铝暴露人群中阿尔茨海默病的发病率较高,RR=1.53。可见,由于不同铝暴露人群的硅暴露水平有差异,而硅暴露是阿尔茨海默病的危险因素(RR=3.14),因此,硅暴露是混杂因素。

问题8 对上述几个例子进行归纳总结,说明在流行病学研究中如何识别混杂因素?

答:首先,混杂因素往往为如年龄、性别、种族、职业、经济收入、文化程度等人口统计学指标;其次,混杂因素往往为除研究因素以外疾病的危险因素,如研究饮水中铝暴露与阿尔茨海默病的关联时,考虑到了硅暴露这一可能的混杂因素;此外,可根据专业知识,按混杂因素的3个特征进行识别;还可采用分层分析方法进行识别。如果以某因素进行分层分析后,发现cOR≠ORi或cRR≠RRi,而ORi=ORi+1或RRi=RRi+1,则提示该因素为混杂因素。

问题9 举例说明在研究的设计阶段如何控制混杂因素?这些方法分别有什么不足之处?

答:在研究的设计阶段一般采用限制、随机化和配比的方法控制混杂因素。

1.限制:指针对某一或某些潜在的混杂因素,在研究设计时对研究对象入选条件加以限制,使选择的研究对象在可能是混杂因素的变量上具有相同值,或接近相同值(同质)。例如,采用病例-对照研究评估被动吸烟与女性肺癌的关联,就将研究对象限制为非吸烟女性,这样主动吸烟对该研究来说就不会是混杂因素了。该方法的不足之处主要有:①如果限制条件太多,可能无足够的样本量;②可能影响结果的代表性;③无法分析限制因素与暴露的交互作用。

2.随机化:即通过随机化分组,使混杂因素均匀地分布在各研究组之中。如果混杂因素已知,可按混杂因素进行分层随机;如混杂因素未知,则可采用简单随机的方法。该方法常用于RCT中。如比较某新药与传统药物的疗效时,在研究的设计阶段往往采用随机方法进行分组,使两组在年龄、性别、疾病严重程度等方面均衡可比。该方法往往不适用于观察性研究。

3.匹配:选择病例与对照时,按病例组人群混杂因素的分布情况选择对照组人群,使得对照组常见混杂因素的分布与病例组相同。有个体匹配和频数匹配两种。例如,为每位病例配一名同性别且年龄相差不超过2岁的对照,为个体匹配;按病例组的性别和年龄组分布选择对照,使两组的性别和年龄组分布一致,为频数匹配;两种方法都控制了性别和年龄的混杂效应。匹配可提高统计效率,但无法分析被匹配因素与其他因素的关系,有时还存在匹配过度(overmatching)的问题。

问题10 什么是过度匹配(overmatching)?哪些情况会产生过度匹配?有何后果?

答:匹配最常用于病例对照研究中,主要用于提高研究效率,也用于控制混杂因素。当所匹配的因素不是混杂因素时,会产生过度匹配。以下4种情况存在过度匹配。

1.匹配因素与暴露因素有较强的关联,但与所研究疾病无显著关联。

此时匹配因素并非混杂因素,没必要进行匹配;而且,由于匹配因素与暴露因素有较强的关联,这种匹配会引入负混杂,不可避免地使情况一致的对子数(即配对四格表中a和d格子内的数量)增加,反而降低了研究效率。

2.匹配因素与暴露因素有较强的关联,但与所研究疾病的关联较弱。

此时匹配因素是弱混杂因素,其造成的后果同第一种情况。这种情况下,分层分析是更好的控制混杂的方法。

3.匹配因素与暴露因素无关,但与所研究疾病有关联。

此时匹配因素并非混杂因素,没必要进行匹配;这种匹配不会引入负混杂,不会增加情况一致的对子数,因此不会降低研究效率,但会增加寻找合适对照的难度。

4.匹配因素是暴露与所研究疾病病因链的一个中间环节。

此时匹配因素并非混杂因素,没必要进行匹配。这种匹配所匹配掉的效应主要是暴露因素的效应。

问题11 在研究的分析阶段,通常采用什么方法进行混杂因素的控制?

答:研究的分析阶段,可采用标准化法、分层分析和多因素分析的方法进行混杂因素的控制。①标准化法:年龄为混杂因素时,可使用标化发病率、标化死亡率等指标;②分层分析:计算各层OR或RR,进行层间同质性检验,计算ORM-H或RRM-H;③多因素分析:如采用logistic回归模型或Cox比例风险模型计算调整OR或RR。

问题12 以当前吸烟者与曾经吸烟者相比较,试估计膀胱癌粗OR值;估计分层后各层OR值;估计年龄调整OR值;已知95%CI为1.484~3.763,请问吸烟与膀胱癌是否真的存在关联?

答:粗OR=ad/bc=(81×134)/(66×101)=1.63

各年龄组OR:

50~59岁组OR=ad/bc=(24×52)/(38×12)=2.737

60~69岁组OR=ad/bc=(27×45)/(19×27)=2.368

70~岁组OR=ad/bc=(30×37)/(9×62)=1.989

由于ORMH>1.0,且95%CI不包括1.0,因此可以说,当前吸烟与膀胱癌有显著关联。

问题13 分别解释上述3个模型得到的结果,并指出哪个模型的结果最可靠?为什么?

答:模型A中的因变量只有高脂膳食这一研究因素。从得到的RR值、95%CI及统计学检验结果可知,与低脂膳食相比,高脂膳食并不显著增加冠心病的发病风险。

模型B在模型A的基础上调整了吸烟这一可能的混杂因素。结果显示,调整吸烟后,高脂膳食者较低脂膳食者患冠心病的危险增加了1.24倍。

模型C在模型B的基础上加入了吸烟与高脂膳食的交互作用项。结果显示,交互作用项的效应未达显著水平,即吸烟与高脂膳食在冠心病的发生中无交互作用。但由于交互作用项的存在,降低了统计把握度,使高脂膳食与冠心病的正向关联未达显著水平。

可见,模型B所得结果较为可靠。

问题14 按照我们前面学过的混杂因素的识别,该研究中还应该控制哪些可能的混杂因素?

答:混杂因素往往为如年龄、性别、种族、职业、经济收入、文化程度等人口统计学指标以及除研究因素以外的疾病危险因素。冠心病的发生与年龄、性别、种族、职业、经济收入和文化程度等均有一定的关系。此外,还与饮酒、体育锻炼、肥胖等因素有关。研究高脂膳食与冠心病的关联时,需考虑这些因素的可能混杂作用。

(徐望红)