二、图像数据集和评价指标存在较大差异
各种眼底图像数据集之间存在较大差异,包括采集相机、分辨率、光源强度、参数设置等,数据集之间的差异对深度学习模型的泛化性能提出了挑战。事实上,即使是一些最先进的模型也只能在某些数据集上表现良好,而在其他数据集上表现不佳,领域适应是一个正在探索的课题。此外,不同的研究人员使用不同的指标来衡量他们的工作。由于这种可变性,人们无法轻松比较针对给定疾病状态的不同深度学习架构。因此建立标准图像数据集和评价指标从而推动我国AI发展仍是科研工作者不懈追求的目标。全国智能眼科学组发布的《基于眼底照相的糖尿病视网膜病变人工智能筛查系统应用指南》是一个极佳的典范,但还需向更多病种进行更深层次拓展。