6.4.2　基于注意力机制的循环网络学龄人口预测模型设计

2026年01月16日

版权

利用多元时间序列对学龄人口进行预测问题，一个重要的挑战是如何捕捉多变量之间的不同时间步的依赖关系。但是循环神经网络由于本身结构问题很难捕捉到这种依赖关系，因此，我们引入了注意力机制。同时，由于LSTM在时间序列预测上的良好表现，我们选择了LSTM模型作为循环神经网络单元构建了ATTENTION-LSTM模型对学龄人口进行预测。

1.长短期记忆网络

长短期记忆（LSTM）网络是一种特殊的RNN结构，由Schmidhuber教授于1997年提出，在许多时序预测的研究中，LSTM模型都取得了很大的成功，得到了广泛的应用。传统的循环神经网络RNN在修正权重的过程中，面临梯度爆炸或梯度消失的问题。而LSTM对有意义的信息通过引入细胞状态进行保存，并通过“遗忘门”“更新门”“输出门”增加或者去除权重到细胞状态中，从而能够有效解决梯度爆炸或梯度消失问题。

2.注意力机制

注意力机制是利用了人们视觉在处理图像时，对关注的信息能够自我增强同时抑制其他无效信息，从而派生出一种从大量信息中自主选择最关键信息的一种信息处理方式，其已在深度学习里的语音识别、自然语言处理和图像描述等多个领域取得了良好的效果。近年来，随着其应用的发展也逐渐应用于时间序列处理上。

注意力机制在时间序列上的应用主要由编码器和解码器两部分完成，编码器负责计算时间序列在某时刻上各特征的注意力权重，权重代表了各特征在某时刻对当前预测指标的重要程度，输入时间序列的所有特征值权重和为1，以注意力权重对初始输入的时间序列进行加权产生新的时间序列向量；解码器利用循环神经网络等时序分析模型对新的时间序列向量以及预测目标历史信息进行综合处理，得到当前的近似输出，注意力机制模型公式如下：