4.5 基于地物光谱仪的分类精度分析
对建模组的28个样本在350~950nm范围内的450个波段的数据进行逐步判别分析,根据Wilks’ Lambda统计量,选定了判别不同青花料的6个特征波长427.7 nm、455 nm、514.8 nm、549.8 nm、558.1 nm、718.4 nm。
CARS以迭代和竞争的方式从蒙特卡洛抽样运行中依次选择一系列子集,以构建模型。然后通过指数递减函数和自适应重加权抽样,强行剔除变量。选择具有最低交叉验证均方根误差(RMSECV)值的子集,这就是最佳的变量组合。对建模组的28个样本在350~950nm范围内的450个波段的数据进行筛选,最后选定了判别不同青花料的6个特征波长416.1 nm、552.6 nm、559.5 nm、567.9 nm、735.6 nm、744.8 nm。
对建模组的28个样本在350~950nm范围内的450个波段的数据进行试验,在尺度参数为23时,小波系数能与原始光谱拟合较好。选定了判别不同青花料的6个特征波长433.4 nm、554 nm、585.8 nm、675.7 nm、718.4 nm、941.1 nm。
根据青花料光谱特征参量的变化规律,依照判别函数的建立法则,以不同类型青花料为分界线,当引入与删除变量F的概率分别为0.05和0.10,可建立不同类型青花料判别函数。最终从10个光谱特征参量中选取了6个有效参量进行建模,分别是蓝峰中心反射率,蓝峰中心波长,绿峰中心反射率,近红外峰中心波长,蓝-绿吸收谷中心波长,绿-近吸收谷吸收深度。选中的光谱特征覆盖了每一个反射峰和吸收谷,且光谱取值和中心波长都有涉及,这说明本书选取的光谱特征和特征参量非常具有代表性,能够有效表征不同类别青花料的光谱差异。4种特征挖掘方法获取的优选特征汇总如表4.5所示
表4.5 优选特征汇总表
将优选出来的特征分别输入随机森林(RF)算法和长短期记忆(LSTM)人工神经网络,RF算法和LSTM算法均在Python3.7环境下实现,在jupyternotebook编译器调用sklearn机器学习模块中的分类算法。随机森林(RF)算法指定森林个数为10个,节点最大深度设置为15层;长短期记忆(LSTM)人工神经网络学习率为0.001,batch_size为2,优化器选择为Adam,损失函数为交叉熵损失函数。选用未参与建模的28个样本作为测试样本集进行分类测试,不同年代景德镇青花瓷分类结果混淆矩阵如图4.16和图4.17所示。
根据图4.16可以看出,使用逐步判别分析结合随机森林算法对不同年代景德镇青花瓷非成像光谱数据进行分类,在选取的28个测试样本集中,被正确分类的样本个数为20个,总体分类精度为71.43%;使用CARS结合随机森林算法对不同年代景德镇青花瓷非成像光谱数据进行分类,在选取的28个测试样本集中,被正确分类的样本个数为21个,总体分类精度为75%;使用CWT结合随机森林算法对不同年代景德镇青花瓷非成像光谱数据进行分类,在选取的28个测试样本集中,被正确分类的样本个数为22个,总体分类精度为78.57%;使用光谱特征参量结合随机森林算法对不同年代景德镇青花瓷非成像光谱数据进行分类,在选取的28个测试样本集中,被正确分类的样本个数为22个,总体分类精度为78.57%。CWT和光谱特征参量在使用随机森林算法进行分类时,两者的总体分类精度相同,但是从混淆矩阵结果分析,CWT正确划分4个类别,光谱特征参量正确划分5个类别。根据图4.16还可以看出,4种特征挖掘方法结合随机森林算法对不同年代景德镇青花瓷非成像光谱数据进行分类时,均可以正确地将第5类和第9类划分到对应年代。实验结果表明,使用4种特征挖掘的方法结合随机森林算法对不同年代景德镇青花瓷非成像光谱数据进行分类是可行的,并且使用光谱特征参量结合随机森林算法进行分类时取得的效果最好。
根据图4.17可以看出,使用逐步判别分析结合长短时记忆人工神经网络算法对不同年代景德镇青花瓷非成像光谱数据进行分类,在选取的28个测试样本集中,被正确分类的样本个数为25个,总体分类精度为89.29%;使用CARS结合长短时记忆人工神经网络算法对不同年代景德镇青花瓷非成像光谱数据进行分类,在选取的28个测试样本集中,被正确分类的样本个数为23个,总体分类精度为82.14%;使用CWT结合随机森林算法对不同年代景德镇青花瓷非成像光谱数据进行分类,在选取的28个测试样本集中,被正确分类的样本个数为24个,总体分类精度为84.71%;使用光谱特征参量结合随机森林算法对不同年代景德镇青花瓷非成像光谱数据进行分类,在选取的28个测试样本集中,被正确分类的样本个数为24个,总体分类精度为84.71%。根据图4.17还可以看出,4种特征挖掘方法结合长短时记忆人工神经网络算法对不同年代景德镇青花瓷非成像光谱数据进行分类时,均可以正确地将第1类、第2类、第5类、第8类和第9类划分到对应年代。实验结果表明,使用4种特征挖掘的方法结合长短时记忆人工神经网络算法对不同年代景德镇青花瓷非成像光谱数据进行分类同样是可行的,并且使用逐步判别分析结合长短时记忆人工神经网络算法进行分类时取得的效果最好。
图4.16 随机森林分类混淆矩阵结果图
图4.17 长短期记忆人工神经网络分类混淆矩阵结果图
图4.18为不同分类方法总体分类精度示意图,可以看出,在使用相同的特征挖掘方法时,使用长短时记忆人工神经网络算法进行分类的总体分类精度均高于随机森林算法,说明长短时记忆人工神经网络算法更适合对不同年代景德镇青花瓷非成像光谱数据进行分类。同时可以看出,使用逐步判别分析结合长短时记忆人工神经网络算法是所有分类方法中效果最好的组合。
图4.18 不同分类方法总体分类精度
图4.19和图4.20是随机森林算法和长短时记忆人工神经网络算法对不同年代景德镇青花瓷非成像光谱数据进行分类时取得的F1-score。由图4.19和图4.20可以看出,4种特征挖掘方法结合随机森林算法对不同年代景德镇青花瓷非成像光谱数据进行分类时,在第9类处取得F1-score均为100%,4种特征挖掘方法结合长短时记忆人工神经网络算法对不同年代景德镇青花瓷非成像光谱数据进行分类时,在第8类和第9类取得F1-score均为100%。同时,计入统计的F1-score总数为36个,其中随机森林算法F1-score值取得100%的个数为13个,长短时记忆人工神经网络算法F1-score值取得100%的个数为18个,分别占统计总数的36.11%和50%。这也从一个方面说明使用长短时记忆人工神经网络算法对不同年代景德镇青花瓷非成像光谱数据进行分类,效果优于随机森林算法。
图4.19 RF对不同年代景德镇青花瓷非成像光谱数据分类精度对比(F1-score)
图4.20 LSTM对不同年代景德镇青花瓷非成像光谱数据分类精度对比(F1-score)