ANN-CA模型模拟

一、ANN-CA模型模拟

(一)ANN-CA模型概述

1.元胞自动机的理论基础

“现代计算机之父”Von Neumann在19世纪40年代设计出能够自我复制的自动机并利用自然世界中生物现象的自传原理,首次提出元胞自动机(CA)的概念。CA模型没有既定的公式,而是由一系列转换规则构成。所以,它只是一个方法框架,是时间、空间和状态上都离散且在时间和空间相互作用的一类模型的总称。标准的CA模型(图8-1)由元胞(C)、状态(S)、邻域(N)和转换规则(F)四部分组成,如公式(8-1)所示。

img
img

图8-1 CA模型的原理

式中,C表示元胞,即模拟的主体,在实际应用里表现为一定尺度的栅格形态,包含其本身的空间位置信息和属性特征信息;S表示各个元胞所处的状态,即属性特征信息对于实际自然或社会等信息的反映,其在模型模拟预测过程中会出现稳定或变化两种情况;N代表邻域,即由特定空间组织的元胞周围的元胞组成的集合,以反映元胞与周围元胞的空间关系;F表示元胞转换规则,即决定元胞状态是否发生改变的约束性规则,由元胞自身与周围元胞状态、整体与局部条件共同组成,是CA模型模拟预测的关键。

20世纪80年代,CA模型开始应用于地理现象演化模拟研究。因为CA模型本身具有强大的模拟和建模功能,可通过简单的微观局部规则揭示自然宏观行为。CA模型中的转换规则由全局转换概率、邻域影响概率、单元约束条件三部分组成。转化规则仅考虑确定的客观因素的影响,不考虑政策等不确定因素的影响。但是在地理现象发展过程中,政府政策、行政变化等都会对地理现象变化产生重要影响,所以本研究将可变因子引入该模型的转换规则中以优化元胞转化规则。

2.人工神经网络模型的构建

1943年,神经科学家、控制论专家Warren McCulloch和逻辑学家Walter Pitts创建基于数学和阈值逻辑算法的神经网络计算模型(ANN),从而开创了人工神经网络研究时代。

ANN属于非线性动力系统,其最大的特点是信息的分布式存储、并存协同处理、良好的适应性和自组织性,所以在解决复杂的非线性问题时,具有独到的效果。神经网络通过学习来实现适应性,根据事先设定的“学习规则”学习特定样本。在此过程中,它会调整神经系统的内部结构以实现记忆、归纳和关联的功能,从而完成特定的任务。正是因为具备这种能力,该模型才可以同时为某些复杂的模型提供参数规则。因此,ANN实现了独特的信息处理结构和方法,并在实际应用中取得了显著成效。

自ANN模型建立以来,学者们已经构建了十几种模型类型及其响应的学习算法。其中应用最广泛的是误差反向传递(Back Propagation)神经网络模型,简称BP模型。BP模型由于能够实现高度非线性函数逼近、模式识别和综合评价而被广泛使用。BP模型由输入层、隐含层、输出层三部分组成,相邻的神经元由权重系数相连;同一层中的神经元是平行的,没有连接关系(图8-2)。

其原理如下:假设输入层有n个神经元xi,隐含层有p个神经元,输出层有m个神经元xj,隐含层神经元输出函数是:

img

输出层神经元输出函数为:

img

式中,Vij是连接输入层第i个神经元和隐含层第j个神经元的权重系数;wkj是隐含层与输出层之间的权重系数;θj、φk分别是隐含层和输出层的阈值;f是用以改变神经元输出的Sigmoid函数,公式如下:

img

图8-2 BP模型结构

img

式中,k为Sigmoid参数。

3.ANN-CA模型的构建与实现

CA模型具有模拟未来时空复杂地理系统变化的功能。在模拟过程中,影响荒漠化的各个因子不只干扰了内部系统,对整个元胞空间都造成了一定影响。但是CA模型在模拟过程中,对微观因素在整体上的把握很有限,因此基于当前的荒漠化变化趋势,其对未来荒漠化演变格局的模拟在数量上就存在一定的局限性。CA模型在对荒漠化模拟的实践研究中,必须制定模拟中所需的规则,而在获取这些规则和参数时存在一些不确定的困难,国外许多专家采用由模型获得的数据信息来取代元胞自动机所需的规则和参数,这样不仅减少了规则获取的繁杂性,也提升了模拟精度。

本研究试图构建ANN-CA模型,对研究区土地荒漠化变化特征进行模拟和预测。利用RS和GIS获得模型运行的初级状态和部分参数,通过耦合影响荒漠化的主要自然因子、人文因子,构建精河县荒漠化系统模型。输入层根据TM遥感影像提取并经实地验证的研究区土地荒漠化现状数据,将神经元个数确定为4。根据Kolmogorov定理,对于3层非线性神经网络,隐含层中神经元数量至少是输入层的2/3。经过多次试验,隐含层中神经元数量确定为10;输出层中神经元数量对应输入层目标类别。在此基础上,ANN-CA土地荒漠化模型结构为(4,10,4)。该模型在模拟应用中的主要思路是提取研究区荒漠化类型并获取该区域驱动力适宜性图集,利用这两个参数,对研究区荒漠化进行模拟。

(二)ANN-CA模型参数构建

土地单元的内在环境对荒漠化变化影响较大,因此,模型必须考虑内在环境对其的影响程度。考虑到模型运行的可能性和可操作性,结合研究区土地荒漠化变化的主要驱动因子以及地面调查和遥感技术可获取性,本研究选择植被覆盖度、土壤肥力、气候因子、地形因子、河流距离、交通因子、人口因子、社会经济因子和土地利用类型9项指标,作为研究区荒漠化程度评价指标(表8-1)。

表8-1 研究区荒漠化影响因子选取及指标体系

img

续表

img

为了模型运行的便利性和可操作性,输入的数据需要统一转换成Grid格式,同时将土地荒漠化转换指数评价结果进行归一化处理。TM图像的分辨率为30 m,但考虑到研究区的空间范围较大以及模型运行的速度问题,本模型采用的元胞单元大小为60 m×60 m,这样整个研究区就被划分成2685×2111(行,列)大小的栅格空间。土地荒漠化评价模型如图8-3所示。

1.植被覆盖度

植被覆盖度(Vegetation Coverage,VC)的变化是反映干旱区土地荒漠化程度的重要指标,在发生荒漠化和潜在荒漠化的区域,VC一般处于极低覆盖度、低覆盖度范围内。利用归一化植被指数计算植被覆盖度,可以有效消除大气和土壤的影响,反映植被冠层。由于精河县内有明显的林地、耕地、沙地等土地利用类型,因此可以确定纯植被和纯裸土像元值。利用像元二分模型反演精河县的植被覆盖度,具体公式如下:

img

式中,Fc为研究区的植被覆盖度,NDVIsoil是研究区内纯裸土(沙漠区域)的NDVI值,NDVIveg是研究区内完全植被覆盖区域的NDVI值,取累积概率为10%和90%NDVI值作为NDVIsoil和NDVIveg

img

图8-3 土地荒漠化评价模型

参考相关荒漠化分级标准并结合研究区自然环境的实际情况,本研究将植被覆盖分为4个层次,其取值范围如表8-2所示。分级后得到研究区2000年和2016年植被覆盖情况,如图8-4所示。

表8-2 研究区植被覆盖分级标准

img
img

图8-4 研究区植被覆盖度

2.土壤肥力

本研究利用GPS定位技术,以研究区1∶100000地形图为底图,结合地形、地貌等因素,采用“S”形布点采样。在每个采样单元采集5个样本进行彻底混合后,用四重法取约1 kg土样。共采集36个采样点0~20 cm、20~40 cm土壤样品80个,样点分布如图8-5所示。

img

图8-5 采样点分布图

以结合精河县土壤特性选取的有机质、全磷、速效磷、速效氮和pH 5项指标作为评价因子,建立土壤肥力评价指标体系。上述选取的参数采用下列方式进行标准化以消除各参数间的量纲差别。属性值的分级标准参照《全国第二次土壤普查养分分级标准》(表8-3)。

表8-3 土壤因子养分分级标准

img

当因子的测量值属于“非常差”水平时,χi≤χimin

img

当因子的测量值为“差”水平时,χimin<χi≤χimid

img

当因子的测量值属于“中等”水平时,χimid<χi≤χimax

img

当因子的测量值属于“良好”水平时,χi>χimax

img

土壤肥力系数利用内梅罗(Nemoro)公式计算:

img

式中,P为土壤肥力系数;Pi平均是土壤各属性的平均值;Pi最小是土壤各属性的最小值;(n-1)/n为修正项。根据计算得出土壤肥力以及采样点的经纬坐标,用反距离权重进行插值,得到研究区归一化土壤肥力分布,如图8-6所示。

img

图8-6 归一化土壤肥力分布

3.地形因子

不同的地形特征影响区域的大气流动以及水汽循环,从而间接影响风沙堆积、迁移现状、植被生长分布及水环境,在荒漠化形成和分布中起着直接或间接作用,在地域尺度上直接决定了荒漠化的整体分布格局。由于研究区在1990—2016年间土地利用类型结构没有发生较大变化,因此,本研究假定地形因子也无较大变化。以地面数字高程(DEM)作为基础数据,运用ArcGIS软件Slope模块提取坡度信息,根据研究区实际地形特点,将DEM和坡度作为土地荒漠化演变趋势的影响因子(图8-7、图8-8)。

img

图8-7 研究区DEM

img

图8-8 研究区坡度

4.气候因子

降水量的增加有利于减少荒漠化的发展,气温和风速也会对荒漠化的区域差异性产生影响。将覆盖精河县的5个气象站点的年均降水量和年均温数据,通过普通克里金插值得到归一化年平均降水量(图8-9)和归一化年平均气温(图8-10)。

img

图8-9 归一化年平均降水量分布

img

图8-10 归一化年平均气温分布

5.河流因子

水文特征是影响土地荒漠化演变的重要因素,水量不平衡会破坏土壤的物理、化学和水土保持条件,降低地表植被覆盖面积,从而加快荒漠化发展速度。利用DEM数据通过提取河网,获得研究区河流图层(图8-11)。

6.人文因子

交通道路的分布体现了人类活动的轨迹,进而影响荒漠化的发展方向。从全疆道路图层中裁剪获得研究区道路图层(图8-12),从道路计算运输欧氏距离。越接近道路,运输条件越好,人类活动越频繁。

img

图8-11 归一化接近河流欧氏距离

img

图8-12 归一化接近道路欧氏距离

人口增长、经济快速发展、人工砍伐森林、滥用水资源和基础设施建设不足,会诱导和加速土地荒漠化的发生和发展。依据研究区内10个乡镇人文环境调查统计数据,以城市绿洲范围为界,利用反距离权重进行插值,得到研究区归一化的人口、GDP图层(图8-13、图8-14)。

img

图8-13 归一化人口空间分布

img

图8-14 归一化GDP空间分布

(三)ANN-CA模型运行结果

1.模型校正与精度检验

ANN-CA模型在预测过程中,主要通过随机选取大约80%的样本点进行训练,当迭代次数达到200次时,模型的误差曲线趋于稳定(图8-15)。在此基础上,将研究区1990年土地荒漠化现状数据作为模型的初始数据,根据上述模拟原则,输入土地适宜性图集,计算1990年研究区内每个单元数据转化成4种土地荒漠化类型的概率,对转换概率进行扰动处理后,将转换概率与确定的阈值进行对比,确定每个单元数据本次循环的土地荒漠化类型。根据上一次循环的土地荒漠化类型数据,再次作为模型的初始数据,对模型校正的所有初始参数进行更新,重复以上循环过程,直到某种土地荒漠化类型的单元数量达到理想单元数目,结束循环并输出研究区2000年土地荒漠化模拟图。最终,以研究区2000年荒漠化研究现状为初始状况,模拟生成2016年荒漠化变化情况(图8-16)。

img

图8-15 ANN-CA模型误差曲线

img

图8-16 研究区土地荒漠化类型模拟对比

转换概率阈值T和随机参数α的不同,可能会影响模型模拟的精度,为了探求ANN-CA模型在研究区域最适合的参数组合,本研究分别设置了6种参数组合进行模拟,将模拟的土地荒漠化图层与遥感解译的研究区域进行对比(表8-4)。

表8-4 不同参数组合下ANN-CA模型精度

img

当转换概率阈值T=0.8、随机参数α=1时,模拟精度较高。因此对模拟荒漠化类型图与实际荒漠化样本做混淆矩阵,从整体精度计算所有荒漠化类型的Kappa系数。此外,FOM代表匹配率的倒数,值越小说明模拟结果越准确,在评价精度方面优于Kappa系数,公式为:

img

式中,A代表由于将观察到的变化预测为持续性而产生的误差区域;B代表由观察到的变化预测的精度区域;C代表由于观察到的变化为不正确的类别而产生的误差区域;D代表土地利用无变化,但却被预测为变化而导致的误差区域。2000年、2016年荒漠化模拟总体精度、Kappa系数以及FOM精度见表8-5。

表8-5 研究区土地荒漠化动态模拟精度验证

img