流行病学数据处理的基本原则

第十二章 流行病学数据处理的基本原则

问题1 在建立流行病学数据库之后、正式进行流行病学数据分析之前,我们需要做哪些准备工作?

答:我们主要做的工作是数据的检查和核对(核查),包括下面几个内容。

(1)样本量(样本数、观测数)、变量数:主要查看数据库的完整性,是否有遗漏未输入的内容(查漏),这通过对数据库的汇总描述即可完成。

(2)重复记录:对重复记录进行检查,剔除重复的记录。

(3)逻辑错误:主要是依据研究内容而定,不同的研究,可以检查的逻辑错误不同。例如,在调查当年(2011年)某人患某病的病程为10年,那么其出生日期必然在2011-10=2001年之前,因此从逻辑上讲,如果调查的其出生日期在2001年之后,则存在逻辑错误。

(4)错误值:如变量取值范围(不大于某值、不小于某值、处于某个范围之间、有限的几个值)。性别应有两个取值,若有2个以上的取值,说明存在错误(缺失值)。这可以通过查找最大值、最小值,以及绘制频数表的方式来发现。

(5)异常值、极端值(极大、极小值):可通过箱式图来分析。

(6)缺失值:可通过对变量进行排序的方式进行查找。

此外,其他的如针对连续型变量的散点图、直方图、茎叶图以及针对离散型变量的条图、饼图和线图都对上述数据的核查大有帮助。上述所有的操作通常均通过统计软件编程进行实现。

问题2 当在数据核查中发现存在缺失数据时,我们应该如何处理这些缺失值?

答:过去,针对有缺失值的记录,我们通常是直接删除整条记录,这样做的优点是简单方便,但损失了样本量,导致好不容易收集的数据信息被浪费了;因此,现在,我们采取的方法是在统计分析中用到某个变量时,仅删除该变量有缺失值的相应记录,这样在一定程度上提高了数据的利用效率。

举例:某数据库中有性别和年龄等变量,其中性别有5个缺失数据,年龄有3个缺失数据,那么按照现在的缺失值处理方法如下。

(1)分析性别时不包括性别缺失的5个个体观察值。

(2)分析年龄时不包括年龄缺失的3个个体观察值。

(3)当分析中(如多因素分析)同时使用性别和年龄两个变量时,分析时实际利用的样本数量则是性别和年龄这两个变量均不含缺失数据的样本。

因此,这种处理方法在多因素分析时,当不同个体的不同变量存在缺失值,也会导致有效样本量的大大减少。

更为先进的处理方法是缺失值填充技术;如对于连续型变量使用均值替换,对于离散型变量,通过出现频次最多的值进行替换,等等。

注意:过去采用的将缺失值作为1个新的变量分类进行分析的方法是不正确的。

问题3 流行病学数据的整理包括哪些内容?

答:流行病学数据的整理主要指数据的分组(即变量类型的转换)和数据的转换(即变量值的转换)。

问题4 如何进行数据的分组(即变量类型的转换)?

答:

(1)分类变量:按其原有的分类进行分组,若有必要(如类别较多时),可将性质相近或差别不大的类别进行合并,如教育程度(文盲、小学、初中、技校、高中、大专、大学)可合并成教育程度(小学及以下、初中、技校/高中、大专及以上)。

(2)哑变量:分类变量在流行病学数据分析中不能直接进入模型,通常以哑变量的形式进入模型。

1)二分类变量:不需要设定,统计软件会自动将其转换为哑变量。

2)无序多分类变量:将该变量转换成(水平数-1)个哑变量,再将这些新转换的变量放入模型中。

3)有序多分类变量:当其类别数较少时,在多因素分析中可以作为无序多分类变量处理,当其类别数较多时(>6),则一般作为连续型变量对待(严格意义上是不合理的)。

举例:设有1个种族变量,具体取值包括:白种人、黑种人、黄种人、西班牙裔人和其他种族人5类,请将该将种族原始取值转换成哑变量(新变量),见下表。

*:新变量以白人为参照,x1-1表示黑种人与白种人比较,以此类推。
同学们可以尝试以其他种族人作为对照的亚变量转换方法。

(3)数值变量

1)按照实际的生理、病理或临床意义以及现行标准分组:如体质指数(BMI),BMI<18.0为低体重,18.0~24.9为正常体重,25.0~29.0为超重,≥30为肥胖。

2)按专业上惯用的方法分组:如年龄以5岁或10岁为组距进行分组。

3)无参考标准时,按分位数分组:如计算四分位数(quartile)或五分位数(quintile)的界值,然后用这些界值将研究对象平均分成4组(每组25%的研究对象)或5组(每组20%的研究对象)。

问题5 为什么需要进行数据转换?有哪些常用的数据转换方法?

答:由于不同的统计分析方法均有相应的应用条件,如两独立样本的t检验要求两样本数据分别服从正态分布和方差齐性,因此在数据不服从正态分布、方差齐性时,可能需要进行一定的数据转换以使其满足统计分析方法所满足的条件。

(1)对数变换(logarithmic transformation):使服从对数正态分布的资料正态化;使资料达到方差齐性,特别是各样本的标准差与均数之比(CV值)成倍数关系时;使曲线直线化,如指数曲线,常用于曲线拟合;如发汞含量。

(2)平方根变换(square root transformation):服从Poisson分布的资料或轻度偏态资料正态化,如单位时间放射性物质的计数、单位体积水中的细菌数一般认为服从Poisson分布,可用平方根变换使其正态化;当各样本的方差与均数间呈正相关时,即均数大,方差也大,可使资料达到方差齐的要求。

(3)倒数变换(reciprocal transformation):常用于数据两端波动较大的资料,可使极端值得影响减少。

(4)平方根反正弦变换(arcsine transformation):常用于以率为观察值的资料。如以不同致畸物质对孕鼠作致畸试验,分娩后记录每个孕鼠仔代中畸形的发生率。这时以孕鼠为观察单位,观察值为畸形率。一般认为样本率服从二项分布,当总体率较小(如<30%)或较大(如>70%)时,偏离正态较为明显,通过样本率的平方根反正弦变换,可使资料接近正态分布,达到方差齐的要求。

当数据实在无法满足统计分析方法相应的应用条件时,可选择非参数检验方法,如:Mann-Whitney U检验、Kruskal-Wallis H检验、非参数回归等。

问题6 从集中趋势和离散趋势两个角度应该如何对图12-1显示的X1和X2变量进行统计描述?

答:1.由X1的直方图可见其分布近似对称性分布,通过Shapiro-Wilk正态性检验表明其分布符合正态分布,因此,其统计描述应该选用均数(1.14)和标准差(0.95)。

2.由X2的直方图可见其分布明显为正偏态分布,通过Shapiro-Wilk正态性检验发现其不符合正态分布,因此,其统计描述应该选用中位数(0.42)和四分位数范围IQR(0.31~0.56)。

问题7 为了研究饮酒与食管癌之间的关系,研究者随机抽取了一定样本量的食管癌患者和非食管癌患者(对照),回顾性地调查其是否有饮酒史(饮酒史有明确的定义),调查结果如表12-2(数据来源于沈福民主编的《流行病学原理与方法》)。请问我们该如何分析该数据?

答:首先,我们明确这是一个病例-对照研究,因此可以计算其OR=(96×666)/(109×104)=5.64。OR≠1表明饮酒可能与食管癌有关系,本例的结果意味着饮酒者发生食管癌的危险性是不饮酒者的5.64倍,但这仅是一个点观察值,必须经过统计学的假设来说明其是否具有统计学上的意义,以排除随机误差的影响。

由表12-3卡方检验给出了3个不同分析方法的结果,我们该选择哪个结果来解释呢?这就需要基于卡方检验的统计学理论来选择。卡方检验包括配对卡方检验和非配对卡方检验,本研究属于非配对卡方检验,非配对卡方检验包括如下。

(1)普通的Pearson卡方:应用条件为样本量n≥40且所有格子的理论数T≥5。

(2)连续性校正的Yatesχ2:应用条件为样本量n≥40,1≤理论数T≤5的格子数不超过总格子数的20%。

(3)Fisher确切概率法:样本量n<40,或,T<1,或,1≤理论数T≤5的格子数超过总格子数的20%,P≈a。

本例中由于所有格子的理论数均>5,并且样本量n也远远大于40,所以选择普通的Pearson卡方结果,即χ2=110.26,P<0.001。因此,认为饮酒与食管癌之间的关联不是由抽样误差引起的,而具有统计学上的意义。

本例只给出了数据的汇总结果,因此如果要计算OR的95%可信区间,可以借助Woolf(Logit)法或Miettinen法的计算公式近似得到;在实际工作中,我们通常是具有原始的个体数据的,如每个调查对象是病例,还是对照,其是否饮酒,所以可以使用仅包含常数项的Logistic回归分析通过统计软件来直接计算OR的95%可信区间。

问题8 25例某种癌症患者随机分为2组,A组12名患者,B组13名患者,A组给予某种新药治疗,B给予标准疗法,随访2年,随访结果如表12-4所示,数据中有加号者表示为删失值,请问两组的生存率有无差异?

答:首先,本例属于随访研究(队列研究),数据中存在删失,每个数据包含两个信息:结局(生存、死亡)和生存时间,因此其分析方法应该使用生存分析领域的方法,主要的分析结果如表12-5、表12-6,图12-2。

从表12-5的结果可以看出,A组平均的生存时间比B组平均的生存时间要长。

图12-2显示A组的生存率总体上比B组的生存率要好,仅在生存时间为80~200天区间上的结果比B组稍差。

表12-6的生存率比较结果显示,A组和B组的生存率无显著性差异,可以认为新药疗法相对于标准疗法而言,并不能提高该种癌症患者的生存率。但是,我们也注意到表12-5和图12-2均提示了新药疗法可能在一定程度上优于标准疗法,但可能由于样本量小等原因导致未能检验出二者的差异(统计效能偏低),也说明在研究设计中合理样本量的重要性。因此,本例仅用于对队列研究中生存分析方法的解释,并不具有严格的研究设计参考。

(张志杰)