3.3.3 评价标准与结果分析
3.3.3.1 评价标准
在进行二分类任务时,选择对分类结果进行评价的指标通常采用PR曲线和ROC曲线,但在本书的多分类任务中并不适用,因此对于不同年代景德镇青花瓷真彩色图像的分类,本书首先通过常用的混淆矩阵来进行处理,矩阵为k行k列,行和表示参与实际验证的某个类别的总数,列和表示被预测为某个类别样本的总数。构建混淆矩阵后,参与精度评价的参数主要包括以下4种。
1. 总体分类精度
总体分类精度(Overall Accuracy,OA)是正确分类的样本数量与总样本数量的百分比。其中正确分类的样本数量为混淆矩阵对角线之和,其计算公式如下:
2. 生产者精度
生产者精度(Producer’s Accuracy,PA)表示正确为某类样本i的数量与该类别真实样本总数的百分比。即混淆矩阵对角线上数据与该行数值之和的百分比。其计算公式如下:
3. 用户精度
用户精度(User’s Accuracy,UA)表示被正确分为某类样本i的数量与整个实验被区分为该类的样本总数的百分比,即混淆矩阵对角线上数据与该列数值之和的百分比。其计算公式如下:
4. F1-score
F1-score被定义为生产者精度和用户精度的调和平均数,它综合了生产者精度和用户精度的产出结果,F1-score的取值范围从0~1,本书为了将结果表示得更加直观,将F1-score的结果以百分号进行表示,100%代表模型得到的分类效果最好,0则代表模型得到的分类结果最差。其计算公式如下:
式中 OA—— 总体分类精度;
PA—— 为生产者精度;
UA—— 用户精度;
k—— 分类结果类别总数;
—— 矩阵中i行i列的值的总和;
N—— 测试样本总数;
—— 矩阵中的行和;
—— 矩阵中的列和。
3.3.3.2 结果分析
分别采用VGG16和ResNet50网络模型对不同年代景德镇青花瓷图像数据集(表3.3)进行迁移学习,由于网络架构不同VGG模型使用30次迭代,ResNet使用30次迭代。以景德镇青花瓷年代判别模型训练结果为例,得到两种模型的计算精度图像(图3.16)。
表3.3 不同年代景德镇青花瓷图像数据集
续表
图3.16 青花瓷VGG16模型和ResNet50模型识别精度结果示意图
通过实验绘制出采用VGG16和ResNet50网络模型对不同年代景德镇青花瓷图像测试集进行分类的结果,结果以混淆矩阵的形式展示。图3.17为使用VGG16网络模型进行分类之后的结果,图3.18为使用ResNet50网络模型进行分类的结果。
图3.17 VGG16网络模型对不同年代测试集分类结果
注:洪武—万历属明代;康熙—乾隆属清代。
从图3.17可以看出,使用VGG16网络模型对不同年代景德镇青花瓷测试集图像进行分类,在选取的1234个测试样本集中,被正确分类的样本个数为1051个,明洪武的测试样本总计63个,其中有48个被正确分类;明永乐的测试样本总计236个,其中有218个被正确分类;明宣德的测试样本总计285个,其中有260个被正确分类;明天顺的测试样本总计72个,其中有68个被正确分类;明成化的测试样本总计84个,其中有60个被正确分类;明嘉靖的测试样本总计56个,其中有39个被正确分类;明万历的测试样本总计96个,其中有88个被正确分类;清康熙的测试样本总计150个,其中有110个被正确分类;清雍正的测试样本总计114个,其中有98个被正确分类;清乾隆的测试样本总计78个,其中有62个被正确分类。最终总体分类精度为85.17%。
图3.18 ResNet50网络模型对不同年代测试集分类结果
注:洪武—万历属明代;康熙—乾隆属清代。
从图3.18可以看出,使用ResNet50网络模型对不同年代景德镇青花瓷测试集图像进行分类,在选取的1234个测试样本集中,被正确分类的样本个数为1065个,明洪武的测试样本总计63个,其中有56个被正确分类;明永乐的测试样本总计236个,其中有211个被正确分类;明宣德的测试样本总计285个,其中有263个被正确分类;明天顺的测试样本总计72个,其中有60个被正确分类;明成化的测试样本总计84个,其中有68个被正确分类;明嘉靖的测试样本总计56个,其中有42个被正确分类;明万历的测试样本总计96个,其中有81个被正确分类;清康熙的测试样本总计150个,其中有126个被正确分类;清雍正的测试样本总计114个,其中有96个被正确分类;清乾隆的测试样本总计78个,其中有62个被正确分类。最终总体分类精度为86.30%。
混淆矩阵能够直观反映预测类别与真实类别之间的关系,通过混淆矩阵可以看到,某个年代的测试样本被错分到相邻年代的概率相对于非相邻年代的概率是较大的,造成这一现象的原因可能是景德镇青花瓷的制作在相邻年代之间存在过渡期,相邻年代之间的器物在造型和纹饰绘画技法上相差不大。同时通过混淆矩阵发现VGG16网络模型和ResNet50模型在将清朝(清康熙、清雍正、清乾隆)时期的景德镇青花瓷图像进行分类时,经常错分在明成化时期,通过查阅景德镇青花瓷制作史以及这三个年代的制作风格,清前期推崇仿前朝风格,导致清前期的景德镇青花瓷在造型上与明成化时期相近。
通过图3.19不同年代景德镇青花瓷测试集图像数量与用户精度的关系,图3.20不同年代景德镇青花瓷测试集图像数量与生产者精度的关系可以看出,VGG16网络模型在对明宣德和明万历的测试样本进行分类时,生产者精度和制图精度都超过90%,对明万历的测试样本分类效果最好。使用ResNet50网络模型进行分类时,明宣德测试样本的用户精度为89.46%,生产者精度达到92.28%,是所有测试样本中精度最高的一组,说明ResNet50网络模型对明宣德的测试样本分类效果最好。同时,由于不同年代景德镇青花瓷测试集图像数量不等,通过图3.19和图3.20可以看出当景德镇青花瓷测试集图像在某个年代有较多数量时,该年代在进行分类时的生产者精度和用户精度相对会高出其他年代。
图3.19 不同年代景德镇青花瓷测试集图像数量与用户精度关系
图3.20 不同年代景德镇青花瓷测试集图像数量与生产者精度关系
图3.21为VGG16和ResNet50网络模型对不同年代景德镇青花瓷测试集图像进行分类后得到的F1-score,通过图3.21我们可以得到在对明洪武、明永乐、明成化、明嘉靖、清康熙、清雍正时期的测试集图像进行分类时,ResNet50网络模型要优于VGG16网络模型,在对明宣德、明天顺、明万历时期的测试集图像进行分类时,VGG16网络模型要优于ResNet50网络模型,VGG16网络模型和ResNet50网络模型在对明成化时期取得的F1-score均最小,说明明成化时期的景德镇青花瓷图像不易区分。通过查阅景德镇青花瓷制作史以及这三个年代的制作风格,清前期是推崇仿前朝风格,导致清前期的景德镇青花瓷在造型上与明成化时期相近。同时,VGG16网络模型和ResNet50网络模型的F1-score最小为63.49%,最大为93.12%。VGG16网络模型和ResNet50网络模型的总体分类精度分别为85.17%和86.30%。证明了利用VGG16网络模型和ResNet50网络模型对不同年代景德镇青花瓷真彩色图像数据进行分类的可行性。
图3.21 VGG16和ResNet50网络模型分类精度对比(F1-score)