5.1.2 数据获取及预处理

5.1.2 数据获取及预处理

图5.2 SOC710-VP成像光谱仪

本章研究中使用的样本是不同年代景德镇青花瓷碎片,包括明嘉靖、明万历、明成化和清康熙4个不同的历史时期(图5.3),这些年代同时被包括在第3章和第4章实验数据划分的历史时期中,可以通过成像光谱的空间维、光谱维以及空谱联合等手段对前期的建立模型的进行验证。在验证成像光谱的空间维和光谱维时,如果分类输出没有在上述4个历史时期,待分类样本将会被归类到其他;同理,在利用成像光谱的空谱联合信息进行分类时,如果分类输出没有在上述4个历史时期,待分类样本将会被归类到其他。

图5.3 不同历史时期景德镇青花瓷样本展示

在实验室室内灯源条件下,使用SOC成像光谱仪测量获得隐含信息青花瓷碎片样本光谱。根据规范操作流程进行操作。为保证数据精度,测量时选择室内测量,光照情况稳定。使用深色支架,通视条件良好,测量期间周边无移动物体出现。测量人员穿着暗色衣物,测定时人员和仪器背光测量,前面无遮挡。

针对获得青花瓷样本的成像光谱数据,进行超多维光谱图像信息的显示,即建立高光谱图像立方体,如图5.4所示。

图5.4 不同历史时期青花瓷样本高光谱图像立方体

高光谱遥感图像是通过目标的光谱信息和空间信息来表达不同目标之间的区别,高光谱图像分割就是对高光谱图像中的光谱信息和空间信息进行分析后,采用一定的手段划分出感兴趣的目标区域。本书采用基于K-Means聚类的高光谱遥感图像分割将青花瓷与背景分割,随机选择可以表现青花瓷图像信息较好的红(620~720 nm)、绿(500~560 nm)、蓝(430~470 nm)中的3个波段,作为RGB彩色显示的3个波段,然后利用ENVI5.3软件对不同年代青花瓷的成像数据进行图像导出,获取不同年代景德镇青花瓷的图像,最终每幅图像得到20张不同波段组合的图像,以满足基于空间维的不同年代景德镇青花瓷分类研究。

数据集采用数据增强的方法,使用的具体方法包括随机角度翻转、添加随机噪声、增加亮度和对比度,同时通过数据增强的方法还能够缓解过拟合问题,设定输入图像的大小为224*224像素,同时对输入图像进行归一化处理。这可以更细致地描述青花瓷器的特征,同时达到数据集扩充的目的,进行图像的局部裁剪,裁剪后将不包含青花瓷器特征的图像或只包含少量特征的图像剔除。利用成像光谱数据的空间维构建的图像数据,得到明成化、明嘉靖、明万历、清康熙四个时期的640个验证样本。在进行数据集的划分时,将每一张原始数据和其增强后的图像数据看作是一组,按照训练集和测试集4 1∶ 的比例进行随机划分,每一组数据只会被一起分到训练集或者测试集,确保划分数据集时不发生数据泄露影像实验结果。

对VGG16和ResNet50网络模型进行调整,保存模型的卷积层参数,对模型的最后一层全连接层进行修改,将原网络的1000个输出类别修改为4,以适应本研究的经过高光谱成像数据所构建的不同年代景德镇青花瓷RGB图像分类。

使用SOC SRAnal710软件对青花瓷样本进行辐射校正、反射率转换和SG平滑等预处理,得到青花瓷样本反射率。本书采用Savizkg-Golag平滑算法对获取的高光谱影像进行平滑处理。Savizkg等人(SAVITZKY A,et al.,1964)在1964年首次发现Savizkg-Golag平滑算法,这是一种可以有效地消除散射影响的方法,基于最小二乘原理,可以让数据图像变得更加平滑,使用Savizkg-Golag平滑算法的优势在于滤除噪声的同时保证光谱信号的形状和宽度保持不变。选取5*5的窗口大小对目标样本进行平滑处理,通过平滑去噪可以去除掉因光照等其他条件以及仪器自身性能引起的噪声。

实验获取的不同年代景德镇青花瓷成像光谱数据为面状数据,为确保选取的光谱数据更加具有代表性,首先在影像中选取感兴趣区域,选取的感兴趣区域为清晰且显著的青花料区域,对该区域进行均匀采样,并得到该区域采样区的光谱平均反射率。具体是在不同的青花料区域均匀抽取160个样本,每个样本包含9个像元,然后计算得到样本平均光谱曲线,明成化、明嘉靖、明万历和清康熙各得到160条平均光谱曲线,将获取的平均值作为不同时期青花料的真实光谱反射率进行处理和分析,以满足基于光谱维的不同年代景德镇青花瓷分类研究。

图5.5是明万历时期青花瓷的非成像光谱和成像光谱的反射率曲线,其中图(a)是青花瓷非成像光谱的反射率曲线,图(b)是青花瓷成像光谱的反射率曲线。通过图5.5(a)(b)可以看出,明万历时期青花瓷的非成像光谱和成像光谱的反射率曲线轮廓大致相同,都是在可见近红外波段有明显特征,具体同第4章介绍的三峰两谷。

图5.5 明万历青花瓷光谱反射率曲线