1.4.2 IROA算法描述

1.4.2 IROA算法描述

我们建立的目标注意力机制将原始图像划分为不同区域,通过目标与图像区域的相关性,实现目标特征指导下的图像特征生成。对图像特征进行表示,并选择其最后一个池化层的输出作为原始图像特征。将图像的大小调整为224×224像素,获取具有维度D v×R的原始图像特征,其中D v=512,表示特征向量的维度。R=7×7是图像区域的数量。将图像V I的每个目标特征和区域特征矩阵输入神经网络中,并使用softmax函数生成不同图像区域下的注意力分布,计算如式(1-19)和式(1-20)所示:

其中[;]表示图像特征矩阵和目标特征向量的级联,即将目标特征向量附加到该图像特征矩阵的每一列,在中的元素表示在给定的目标o t上,每个图像区域的注意概率。基于注意力分布,通过式(1-21)获取与目标o t相关的新图像向量v t

采用softmax函数对其进行类标预测,通过交叉熵对其分类损失进行评估。真实类标和预测类标之间的分类损失可通过式(1-22)计算得到:

其中,N表示数据集中的图像数,L表示类标的数量,L nl分别是图像的真实类标和预测类标。