三、检验的类型

三、检验的类型

所有研究都应该控制得出错误结论的风险。由于计算的P值估计了Ⅰ类错误的概率,即错误地拒绝无效假设的概率。通常保持Ⅰ类型错误的概率较低会增加Ⅱ型错误的概率,即错误地不拒绝无效假设的概率。

对于所有类型的比较,Ⅰ类错误率通常设置为5%双侧(或2.5%单侧),即α=0.05和95%置信区间用于统计推断。此规则是被普遍使用的,例外的是在生物等效性研究中使用90%置信区间。

1.试验显示优效性 优效性研究目的在检测两种或更多种治疗之间的显著差异,因此无效假设应该说明相等,而备择假设应该说明治疗之间的差异。当检测显著时(P值<0.05),我们可以拒绝无效假设并得出结论:检测的治疗之间存在显著差异。如果检测确实得出不显著,我们只能得出治疗组之间的没有显著差异的结论。一项成功的优效性研究显示,测试组和对照组之间存在统计学上的显著差异。发现讨论这种差异的临床相关性(特别是如果证明试验治疗优效于安慰剂)和可能与不良反应有相关性可能会有更多额外的益处。对于严重疾病,当存在适当的阳性对照时,安慰剂对照试验可能被认为是不道德的。在这种情况下,应考虑科学合理地使用阳性控制。每项研究都要按情况具体考虑安慰剂对照与阳性对照的适当性。

2.试验显示等效或非劣效 还有些临床试验研究药物会参考治疗进行检测比较,而目的不是显示优效性。这些类型的定义根据其目标分为两大类:一个是等效试验,另一个是非劣效试验。非劣效性或等效性测试目的在证明两种治疗之间的非劣效性或等效性。无效假设应分别表示劣效或非等效,而备择假设应分别表示非劣效或等同。

3.等效性试验 生物等效性试验属于前一类。在某些情况下,临床等效性试验也是出于其他监管原因而进行的。在一项等效性研究中,相关的无效假设是“对试验治疗的反应至少比控制治疗的反应低δ1或至少高出δ2”,试验的目标是拒绝这种做法,支持另一种假设“治疗和对照处理的差异最多分别为δ1或δ2”(界值δ1和δ2可能相等,但也可能不相等)。

对于主动控制等效性试验,需要该间隔的上下等边距。等效界值的选择需要临床证明。当治疗反应差异的整个置信区间落入理论区间的等效范围内时,推断等效性。使用此方法,可以将所有类型Ⅰ错误控制在所需的显著性范围内。通常置信区间应为双侧95%置信区间,或者两个同时进行的单侧测试应该是2.5%的水平。在生物等效性研究中使用90%置信区间。

4.非劣效性试验 对于非劣效性研究,对照试验旨在表明研究药物的功效并不比对照药物更差。在方案中应规定等效界值,该界值是可以判断为临床可接受的最大差异。对于非劣效性试验,界值的极限取决于临床上的可接受范围,当治疗反应差异的置信区间的下界大于非劣效的界值时,推断出非劣效性。置信区间方法是单侧假设检验,无效假设是治疗差异(治疗反应减去对照反应)等于等效界值,备择假设是治疗差异大于等效界值。通常置信区间应为单侧97.5%置信区间,或者单侧测试应该在2.5%的水平。对于非劣效性和等效性研究,应在研究报告中提供治疗差异的点估计值。然而,关于非劣效性或等效性的决定将仅基于置信区间(如上所述),因为这些小样本量和(或)高变异性而导致点估计可能不精确设计和进行非劣效性、等效性研究,用来证明检验药物的公认检测效率水平。理想情况下,阳性对照等效或非劣效性试验也可以包含安慰剂,从而在一个试验中实现多个目标。检测灵敏度也很重要,这可用于区分有效治疗、效果较差或无效治疗。