一、数据和数据集
在医疗行业,相关的大数据是多元化的,包括临床数据、基因数据和大健康数据。从数据存储的角度看,有结构化的数据,如化验单、处方等常量指标数据;有半结构化的数据,如住院小结、出院小结、入院首页等文字性描述的数据;还有无结构化的数据,如医疗影像数据;此外还包括记忆测序的组学数据及时间序列数据,如血压、心率、脉搏等各种流数据。总之,需要分析的医疗数据是多模态多样化的。随着电子病历的普及,高分辨率的影像图像、视频等无结构化的数据的数量呈指数级增长,整个医疗行业的数据量相当庞大。
在眼科,与其他眼部图像(如血管造影照片)不同,眼底图像可以以非侵入性且具有成本效益的方式获取,更适合大规模筛查。在眼底图像中存在许多重要的生物标志物,如视盘(optic disc,OD)、视杯(optic cup,OC)、黄斑、中央凹、血管,以及一些与DR相关的病变,如微动脉瘤(microaneurysm,MA)、出血(hemorrhage,HM)、硬性渗出(hard exudate,HE)和软性渗出(soft exudate,SE)。眼底图像可用于诊断多种眼科疾病,包括青光眼、糖尿病视网膜病变(DR)、年龄相关性黄斑变性(AMD)、白内障、早产儿视网膜病变(ROP)和糖尿病性黄斑水肿(diabetic macular edema,DME)。OCT图像也广泛用于黄斑皱缩、玻璃体黄斑牵引、黄斑裂孔等各类疾病的检查,它还是诊断糖尿病性黄斑水肿的新标准,同时技术的进步使OCT能够生成用于评估视网膜脉管系统的血管造影照片(OCT-A)。
AI研究离不开大数据,国内外学者们建立了各种眼底图像数据集,现有的深度学习模型中常用的眼底图像数据集(如MESSIDOR、DRIVE、STARE、EyePACS、RIGA等)可见表2-1。
表2-1 常用的眼底图像数据集