筛检与诊断试验评价

四、筛检与诊断试验评价

筛检与诊断试验评价的原理相同,诊断试验的评价在临床上应用相对较多,以下讲解以诊断试验的评价来说明。诊断试验评价的核心思想为对比,首先确定疾病诊断的“金标准”,依据“金标准”将研究对象区分为实际有病者和无病者,再用待评价的诊断方法对全体对象进行检测和判断,将其获得的结果与“金标准”判断的结果进行比较,来评价该诊断试验的诊断价值。

1.确定“金标准”

“金标准(Gold Standard)”是指当前医学界所公认的诊断某种疾病最准确、可靠的方法。常用的“金标准”包括病理组织学检查、外科手术发现、细菌培养、特殊的影像学检查、尸体解剖、长期临床随访等。确定合适的“金标准”是进行诊断试验评价的前提。如果“金标准”选择不当,会造成对受试者分类上的错误,使整个试验的评价失去准确性的基础。

2.选择研究对象

所选择的研究对象应能代表诊断试验可能应用的目标人群。

①患者组:选择一定数量的由“金标准”确诊的实际有病的患者组成。为保证患者组的代表性,所选对象应包含目标疾病的各种临床类型的患者,如典型与不典型、病程的不同阶段(如早、中、晚)、病情的严重程度(轻、中、重型)、有和无并发症等。

②对照组:选择一定数量的由“金标准”证实没有患目标疾病的个体组成对照组。特别要选择一些与目标疾病具有相似临床表现、临床上容易混淆、需要鉴别的其他疾病患者,以评价诊断试验的鉴别诊断能力。

3.估计样本量

样本量是保证研究结论具有一定可靠性的前提下所确定的最小样本数。样本量过小,诊断试验的评价指标分析结果可能不稳定,影响对诊断试验的评价。决定样本量大小的因素有待评价诊断试验的灵敏度或特异度、检验水准α(一般为0.05)、容许误差δ(一般为0.05~0.10)。

当灵敏度和特异度均接近50%时,可以用近似公式进行计算:

式中,n为所需要的样本量;μ为标准正态分布变量值,如α=0.05时,μ=1.96;p为待评价诊断试验的估计灵敏度或特异度。估计患者组所需要样本量时用灵敏度,估计对照组所需要样本量时用特异度,p可通过查阅文献或做预试验而得到。

当灵敏度或特异度≤20%或≥80%时,样本率的分布呈偏态,需要对率进行平方根反正弦转换,其公式为:

【例8.5】某诊断试验的估计灵敏度和特异度分别为70%和60%,设α=0.05、δ=0.05,试计算该诊断试验病例组和对照组各需要多少例样本。

【解】病例组样本量(n1)、对照组样本量(n2)分别为:

计算结果表明:欲评价该诊断试验,病例组需要323例,对照组需要369例。

4.同步盲法检测,比较诊断试验与金标准的结果

对患者组与对照组的全体对象,同时采用“金标准”和待评价的诊断试验进行检测,对比两种试验方法判断的结果。要注意的是,为保证资料的真实性,整个资料收集的过程中应采用盲法观察的方式,即要求判断待评价诊断试验结果的人在不知道“金标准”诊断结果的情况下独立判断试验结果。诊断试验评价的资料整理格式见表8.6。

表8.6 诊断试验评价的资料整理表

注:a表示“金标准”和待评价诊断试验均判定为阳性者例数;b表示“金标准”判定为阴性,待评价诊断试验判定为阳性者例数;c表示“金标准”判定为阳性,待评价诊断试验判定为阴性者例数;d表示“金标准”和待评价诊断试验均判定为阴性者例数;a+c表示患者组(实际有病者)总例数;b+d表示对照组(实际无病者)总例数;a+b表示待评价诊断试验判定为阳性结果的总例数;c+d表示待评价诊断试验判定为阴性结果的总例数;N为患者组和对照组的总例数。

另外,整个过程均要做好质量控制工作。在收集和分析试验的资料时,除采用盲法来保证结果的真实性外,对试验所用的仪器、试验条件、试验方法、所用试剂的质量等方面要统一标准化,对调查员要进行严格培训,从而将误差降到最低。

5.诊断试验评价指标

诊断试验的评价,除考虑方法本身的安全和操作上的简单、快速、方便及价格低廉等因素外,还要重点考虑试验的真实性、可靠性和收益3个方面。

1)评价诊断试验真实性的指标

真实性(Validity)又称准确性(Accuracy),是指诊断试验的测量结果与客观实际情况相符合的程度,用于评价真实性的指标有灵敏度、特异度、漏诊率、误诊率、似然比及正确指数等。

①灵敏度(Sensitivity):又称真阳性率,指实际有病者中,被诊断试验正确判定为阳性者所占的比例。其计算公式为:

灵敏度反映诊断试验正确识别和发现患者的能力。其值越高,患者被发现的机会越大,被漏诊的可能性就越小。

②假阴性率(False Negative Rate):又称漏诊率,是指实际有病者中,被诊断试验错误判定为阴性者所占的比例。其计算公式为:

假阴性率越高,表明该诊断试验漏诊机会就越高。假阴性率和灵敏度之间为互补关系。假阴性率=1-灵敏度,即灵敏度越高,假阴性率越低,反之亦然。

③特异度(Specificity):又称真阴性率,是指实际无病者中,被诊断试验正确判定为阴性者所占的比例。其计算公式为:

特异度反映诊断试验对无病者正确排除其患某病的能力。其值越高,无病者被正确判断为阴性的机会越大,被错误判断阳性的可能性就越小。

④假阳性率(False Positive Rate):又称误诊率,是指在实际无病者中,被诊断试验错误判定为阳性者所占的比例。其计算公式为:

假阳性率越高,表明该诊断试验误诊机会就越高。假阳性率和特异度之间为互补关系。假阳性率=1-特异度,即特异度越高,假阳性率越低,反之亦然。

⑤似然比(Likelihood Ratio,LR):同一诊断试验的灵敏度和特异度分别说明发现病人和排除非病人的能力。似然比和约登指数(Youden's Index,YI)是将两者结合起来的指标。似然比是表示诊断试验的结果在患者中出现的概率与在非患者中出现概率的比值。由于诊断试验的结果可分为阳性结果和阴性结果,因此似然比也相应地分为阳性似然比(Positive Likelihood Ratio,+LR)和阴性似然比(Negative Likelihood Ratio,-LR)两种。

a.阳性似然比表示诊断试验的阳性结果在患者中出现的概率(真阳性率)与在非患者中出现的概率(假阳性率)的比值。其计算公式为:

阳性似然比反映了诊断试验正确判定阳性的可能性是错误判定阳性可能性的多少倍。其值越大,表明诊断试验的阳性结果为真阳性的可能性越大,诊断价值也越高。一般认为,阳性似然比≥10表示诊断试验有较高的诊断价值。

b.阴性似然比表示诊断试验的阴性结果在患者中出现的概率(假阴阳性率)与在非患者中出现概率(真阴性率)的比值。其计算公式为:

阴性似然比表示诊断试验错误判定阴性的可能性是正确判定阴性可能性的多少倍。其值越小,表明诊断试验的阴性结果为真阴性的可能性越大,诊断价值也越高。一般认为,阴性似然比≤0.10表示诊断试验有较高的诊断价值。

⑥正确指数:又称约登指数,为灵敏度与特异度之和减去1,表示诊断试验对实际有病者及实际无病者总的正确判断的能力。正确指数的数值范围在0~1时,其值越大,试验的真实性就越高。

正确指数=(灵敏度+特异度)-1=1-(假阳性率+假阴性率)(8.30)

⑦其他指标:诊断试验真实性指标还有ROC曲线、一致率和Kappa分析等。有关ROC曲线,将在诊断试验临界值的确定中讲述。一致率和Kappa检验既可以评价诊断试验的准确性,又可以评价其可靠性。评价准确性是将诊断试验的结果与“金标准”结果进行比较;评价可靠性是将同一研究对象的两次诊断试验结果或同一结果不同人员判定的结果进行比较。一致率和Kappa检验在可靠性评价中讲述。

2)评价可靠性的指标

诊断试验的可靠性(Reliability),又称可重复性,是指一项诊断试验在完全相同的条件下,重复试验时获得相同结果的稳定程度。评价诊断试验可靠性的常用指标有以下几种。

(1)计量资料

某些诊断试验的测量结果表现为连续变化的数值大小,如身高、体重、血糖水平等,此即为计量资料。对于此类诊断试验的数据,如果是同一样品或同一组个体差异较小的样品,进行多次重复测量,可用标准差和变异系数两个参数反映其可靠性。标准差和变异系数的值越小,表明可靠性越好,即可重复性越好,精密度越高。

(2)计数资料

某些诊断试验的测量结果表现为阳性或阴性,此即为计数资料。对于此类诊断试验的数据,可用下列指标反映其可靠性的高低。

①符合率(Agreement Rate,Consistency Rate):又称为观察一致率,是指对同一研究人群进行两次重复观察,结果一致者所占的比例。

符合率越高,表明两次重复检测一致性越高,即诊断试验的可重复性高、稳定性好。符合率除了用于比较同一观察者两次观察结果的一致性,也可用于比较两个观察者对同一组研究对象检查结果的一致性。

②卡帕值(Kappa Value):评价诊断试验不同次检测结果的一致性。它考虑了机遇因素对一致性的影响并加以校正,从而提高了判断的有效性。具体分析步骤结合案例(表8.7)说明如下。

表8.7 某诊断试验对173份手术标本检测的一致性分析(Kappa分析)

非机遇一致性=1-机遇一致性=1-0.7034=0.2966(或29.66%)

实际一致性=观察一致性-机遇一致性=0.8844-0.7034=0.1810(或18.10%)

Kappa值=实际一致性/非机遇一致性=0.1810/0.2966=0.6102(或61.02%)

Kappa值的范围在-1~1。当两个诊断完全一致时,Kappa值为1。当观测一致率大于期望一致率时,Kappa值为正数,且Kappa值越大,说明一致性越好。当观察一致率小于期望一致率时,Kappa值为负数,这种情况较少。

3)评价收益的指标

对诊断试验的评价,不仅要对真实性和可靠性进行评价,还需要对其在人群中的应用效果进行评价,也就是收益评价。其主要评价指标有预测值、卫生经济学效果等,这里主要介绍预测值。

预测值(Predictive Value)如灵敏度、特异度等准确性指标是诊断试验本身的特征,是临床医生等是否采纳该诊断试验的重要决策依据。一旦采纳该诊断试验后,针对诊断试验结果,临床医生面临的工作是判断有这种结果的人患病的可能性。预测值反映的是持有这种诊断结果的受试者患病与否的可能性(概率),因此又称为验后概率或后验概率。

由于诊断试验结果分为阳性和阴性,因此预测值也分为阳性预测值和阴性预测值两种。

①阳性预测值(Positive Predictive Value,PPV):诊断试验结果阳性者中,实际患病者(“金标准”阳性)所占的比例,反映试验结果阳性者真正患有目标疾病的可能性。

②阴性预测值(Negative Predictive Value,NPV):诊断试验结果阴性者中,真正无病者(“金标准”阴性)所占的比例,反映试验结果阴性者真正不患目标疾病的可能性。