1.3.3 高光谱遥感数据特征挖掘研究现状

1.3.3 高光谱遥感数据特征挖掘研究现状

高光谱遥感数据能够提供近乎连续的窄波段光谱信息,这是进行定量与定性研究的基础,高维数据也给高光谱遥感的应用带来了挑战,包括维度灾难和增加的计算成本,数据冗余和噪声带不仅增加了不必要的计算负载,而且影响了分类精度(HUGHES G,1968)。特征数量的增加为分类器提供了更多的信息,但是随着维数的变得更高,合理估计数据的统计行为所需的训练样本数量呈指数增长(LANDGREBE D A,2003)。对高光谱降维处理,即减少特征数量是有效进行分类的关键预处理步骤。特征挖掘目的是进行数据降维,特征挖掘主要包括两大类:波段选择和特征提取(杜培军等,2016)。光谱波段选择即是在全部数据集中,在众多特征中挑选出若干用于遥感分类的有限特征(陈彬等,1997;骆仁波,2017)。特征提取过程一般如图1.1,其中p>P。特征提取是将高光谱原始影像进行线性变换到另一空间,从该空间中提取重要信息作为最能反映其类别特征的新特征,从而实现压缩波段,提高不同类别间可分性的目的,有利于快速、准确地进行分类(杨哲海等,2003;曹宁,2021;闫馨方,2021)。特征提取高度融合了原始数据的信息量,但破坏了光谱的物理特性。

图1.1 光谱特征提取过程

在高光谱遥感数据的特征挖掘研究上,主要有以下几种方法。基于波段选择的方法主要有:

(1)基于波段信息量的波段选择方法,主要通过统计所选择波段子集的信息量或者计算波段组合的信息量以及各波段之间相关性,评价指标主要有信息熵、信息增益、最佳指数法(Optimum Index Factor,OIF)、自适应波段选择法(Adaptive Band Selection,ABS)等(BAYER W, et al.,1973;KENT J T, 1983;CHAVEZ P S, et al.,1982;刘春红等,2005)。通过对高光谱数据处理,说明了信息熵、联合熵用于最佳波段选择的有效性和局限性(罗音等,2002)。在最优指数因子的基础上,提出了一种改进的波段选择算法,目的是通过改进的块状自适应波段选择来降低维度(ZHONG C,et al.,2014)。一种用于高光谱图像降维的自适应波段选择算法。考虑到空间相关性和光谱相关性,构建了一个参考光谱信息及其相关性的选择规则,用于波段选择(LI X J, et al.,2009)。为了测试该算法的效率,对该算法生成的图像采用了无监督分类的K-Means算法。结果表明,所提出的算法减少了计算量并提高了分类的准确性。

(2)基于类间可分性的波段选择方法,主要是利用各波段或波段组合计算已知类别的样本区域之间的统计距离。最大统计距离的波段组合就是所求的最优波段子集(即最佳波段组合)。主要方法有:基于空间维的类间可分性和基于光谱维的类间可分性方法(赵英时等,2003;陈述彭等,1998)。基于空间维的类间可分性主要有均值间的标准距离、离散度、Bhattachryya距离、J-M距离等,基于光谱维的类间可分性主要有光谱的混合距离、光谱角度制图法(SAM)、光谱相关系数等(田明璐,2017)。

基于特征提取的方法主要有以下几种:

(1)基于代数运算的特征提取算法,主要是通过对原始波段进行加、减、乘、除、指数、对数等运算,其中最常见的是比值法,目的是增强某种信息而压抑另一种信息。几种常见的植被指数如比值植被指数(Ratio Vegetation Index,RVI)、归一化差异植被指数(Normalized Difference Vegetation Index,NDVI)、土壤调整植被指数(Soil Adjusted Vegetation Index,SAVI)等都是通过进行代数运算得到(田庆久等,1998)。

(2)基于光谱特征参量的特征提取算法,主要有导数光谱、红边参数、光谱吸收特征和光谱反射特征等,遥感光谱特征参量能够为目标理化信息的提取提供强有力的工具(谭昌伟等,2010)。对Hyperion图像进行光谱特征参量提取后,采用了统计回归方法,得到黏土和碳酸盐的含量与光谱吸收峰的深度有很高的拟合度,而其他特征参数与含量之间的关联度较低(LIU N,et al.,2015)。

(3)基于统计的特征提取算法,变换法又分为两种类型,其一是非监督特征提取,非监督特征提取方法不需要先验知识或训练数据。主要有投影寻踪(Projection Pursuit,PP)、主成分分析(Principal Component Analysis,PCA)、独立成分分析(Independent Canonical Analysis,ICA)等(JEROME H F, et al.,1974;LEI T C, et al.,2008;LI R F, et al.,2002)。在主成分分析(PCA)和独立成分分析(ICA)的基础上,提出了一种新的遥感聚类方法。能够在二阶统计和高阶统计信息方面提取数据的独立特征。其二是监督特征提取,监督特征提取依赖于标记样本提供的先验知识。这些方法又可以进一步分为参数和非参数的类别(CHENG L,et al.,2017)。参数化方法依赖于对固定的类级参数集的估计,并且常常对数据的分布作较强的假设,非参数化方法不做这样的假设。主要方法有局部费希尔判别分析(Local Fisher’s Discriminant Analysis,LFDA)、非参数判别分析(Non-parametric Discriminant Analysis,NDA)等。一种结合遗传算法和基于局部费希尔判别分析(LFDA)在原始光谱空间的特征空间中实现降维的方法,实验数据的分类结果表明提出的方法在小样本和混合像素条件下优于传统的降维算法(CUI M,et al.,2013)。一种改进的局部费希尔判别分析(LFDA),实验结果表明,改进的局部费希尔判别分析对多源地理空间图像进行特征提取是非常有效的(ZHANG Y,et al.,2014)。

(4)基于小波的特征提取,小波变换在信号分析中有着广泛的应用。小波具有分离信号的小尺度和大尺度细节的能力,在不同尺度上保持能量和空间几何信息(SHANKAR B U, et al.,2011)。利用连续小波变换对高光谱图像进行矿物的特征提取,实验结果表明,连续小波变换捕捉信号的能力可以用来完成识别矿物物质的任务(SOJASI S,et al.,2017)。最终本书拟使用波段选择中的逐步判别分析和竞争自适应重采样(Competitive Adaptive Reweighted Sampling,CARS)以及特征提取中的连续小波变换(Continuous Wavelet Transform,CWT)和基于光谱特征参量的方法对获取的高光谱数据进行数据挖掘。