增强结果在DR分类中的应用
分别将Cycle-CBAM网络增强前后的测试集眼底图像输入DR分类网络,通过比较两类图像的分类精度,可以验证Cycle-CBAM增强网络对CAD系统性能的提升作用。
在上述DR患病等级分类任务中,基于SENET(SE-ResNeXt-152)训练DR五分类网络,训练测试数据均来自EyePACS测试集。由于EyePACS数据集中不同眼底图像成像质量差异较大,我们在增强网络前额外添加一个眼底图像质量二分类模块以判断是否需要对当前眼底图像进行增强操作。如表4-7所示,未经过增强的EyePACS测试集原始图像在DR等级分类任务中各类别分类准确率分别为:0.923、0.227、0.525、0.329、0.520。对比之下,经过CycleGAN增强的EyePACS测试集图像在同一DR分类网络中的分类准确率为:0.938、0.233、0.531、0.364、0.539。经过Cycle-CBAM增强的EyePACS测试集图像各类别DR等级分类准确率达到了:0.936、0.242、0.557、0.380、0.548。经过Cycle-CBAM增强的眼底图像在各个类别的分类准确率上均有所提升,其中第1~4类分类准确率均优于CycleGAN。结合5类DR等级,不同测试集的平均准确率Mean_ACC分别为0.534、0.542和0.549。
表4-7 EyePACS测试集图像增强前后分类准确率
图4-29分别为EyePACS测试集原始图像和经过CycleGAN、Cycle-CBAM增强后的眼底图像在DR分类任务中对应的混淆矩阵。观察混淆矩阵可以看出,无论是否对测试集进行增强,类别为1的眼底图像仅仅只有0.23左右的准确率,大量类别为1的图像被错误分类至0类别。分析EyePACS测试集,其不同DR等级间的图像数量差异巨大,0类别图像占总数量的74%,远远大于1类别的7%与2类别的15%。同时,标签为0、1、2的三类眼底图像在临床诊断中有许多相似特征,0类别和1类别眼底图像判定范围高度重合。受上述因素影响,DR等级分类模型在预测时更加偏向于将1类别样本分类至0类别,其对1类别图像的辨别能力较弱。
在分类准确率计算过程中,每个样本错误分类的代价均相等,将0类别样本错误分至1类别或4类别时对分类准确率并没有影响。而对于一个眼疾病智能诊断系统,将某个病例DR等级错误分类的代价往往不是恒定的。将0类别样本错误分至1类别在临床中属于可接受误差,但是将0类别样本错误分至4类别则会大大降低智能诊断系统结果的可信度。因此,我们引入二次加权Kappa值作为DR分类网络评价指标来计算各个类别之间错误分类的代价。如表4-8所示,未经过任何增强的EyePACS测试集分类结果两次加权Kappa值为0.817,经过CycleGAN和Cycle-CBAM增强的测试集图像分类结果两次加权Kappa值分别为0.828和0.833。结合了CBAM注意力机制的Cycle-CBAM在CycleGAN的基础上将Kappa值提高了0.005。
图4-29 EyePACS测试集图像增强前后分类结果混淆矩阵
对比Kaggle平台中DR等级分类竞赛冠军方案Kappa值为0.850,Cycle-CBAM增强模型将SENET网络Kappa值从原先排名第9提升至排名第5。本实验验证了Cycle-CBAM增强网络在眼疾病智能诊断系统中的有效性。
表4-8 EyePACS测试集图像增强前后两次加权Kappa值