6.4.2 基于注意力机制的循环网络学龄人口预测模型设计

6.4.2 基于注意力机制的循环网络学龄人口预测模型设计

利用多元时间序列对学龄人口进行预测问题,一个重要的挑战是如何捕捉多变量之间的不同时间步的依赖关系。但是循环神经网络由于本身结构问题很难捕捉到这种依赖关系,因此,我们引入了注意力机制。同时,由于LSTM在时间序列预测上的良好表现,我们选择了LSTM模型作为循环神经网络单元构建了ATTENTION-LSTM模型对学龄人口进行预测。

1.长短期记忆网络

长短期记忆(LSTM)网络是一种特殊的RNN结构,由Schmidhuber教授于1997年提出,在许多时序预测的研究中,LSTM模型都取得了很大的成功,得到了广泛的应用。传统的循环神经网络RNN在修正权重的过程中,面临梯度爆炸或梯度消失的问题。而LSTM对有意义的信息通过引入细胞状态进行保存,并通过“遗忘门”“更新门”“输出门”增加或者去除权重到细胞状态中,从而能够有效解决梯度爆炸或梯度消失问题。

2.注意力机制

注意力机制是利用了人们视觉在处理图像时,对关注的信息能够自我增强同时抑制其他无效信息,从而派生出一种从大量信息中自主选择最关键信息的一种信息处理方式,其已在深度学习里的语音识别、自然语言处理和图像描述等多个领域取得了良好的效果。近年来,随着其应用的发展也逐渐应用于时间序列处理上。

注意力机制在时间序列上的应用主要由编码器和解码器两部分完成,编码器负责计算时间序列在某时刻上各特征的注意力权重,权重代表了各特征在某时刻对当前预测指标的重要程度,输入时间序列的所有特征值权重和为1,以注意力权重对初始输入的时间序列进行加权产生新的时间序列向量;解码器利用循环神经网络等时序分析模型对新的时间序列向量以及预测目标历史信息进行综合处理,得到当前的近似输出,注意力机制模型公式如下:

图示

其中,fattetion为权重函数。

3.基于注意力机制的输入序列编码器

基于上述原理,本节通过采用注意力机制分别学习人口、经济等相关指标的时间序列中各时间点的特征值对待入学规模的重要程度,以进一步提升待预测入学规模的预测质量。ATTENTION-LSTM模型结构图如图6-6所示。

图示

图6-6 ATTENTION-LSTM结构图

首先对输入的多元时间序列引入一种具有注意力机制的编码器。在给出含有n个外部序列t个时间步的时间序列中,对于n个外部序列在t时刻的值xt=(图示图示,…,图示),通过编码器LSTM单元的隐藏状态at-1和细胞状态ct-1构建基于注意力机制的编码器:

图示

图示即为t时刻每个外部序列值的权重系数。由此,在对LSTM的单元编码输入为

图示

LSTM细胞包含有3个门控单元:遗忘门图示、更新门图示和输出门图示,三者计算方式都相同,区别只是使用了不同权重矩阵以便反向传播时对3个门独立更新。3个门都采用了sigmoid函数进行归一化,使输出控制在[0,1]的区间,3个门的更新公式如下所示:

图示

LSTM的细胞状态和隐藏状态由下面两个公式进行更新:

图示

其隐藏状态由下面公式更新:(https://www.daowen.com)

图示

编码器输出t个时间步的隐藏单元的状态值。上述式中,Wf,bf,Wu,bu,Wc,bc,Wo,bo分别为遗忘门、输入门、输出门和门控单元的权重矩阵和偏置。

4.基于注意力机制的解码器

解码器模型同样使用了LSTM单元进行解码,为了克服LSTM随着时间步数的增长而带来的权重下降的问题,我们在解码阶段同样也引入了注意力机制,对编码器输出单元中含有t个时间步的编码器隐藏状态进行相应的解码工作

图示

d't-1和s't-1为解码器的LSTM单元上一时间步的隐藏状态和细胞状态,hi为编码器LSTM单元的隐藏状态输出。

图示

图示即为编码器t时刻第i个隐藏单元的权重系数,则编码的环境向量ct

图示

以环境变量和目标序列t时刻的值为解码器的输入:

图示

解码器的3个门的更新公式为其细胞状态由以下公式更新:

图示

图示

图示

隐藏细胞的更新公式为

图示

预测结果为

图示

Wy、bw、bv为权重矩阵和偏置参数。