双向学习在域适应语义分割中的优化

更新时间：2026-01-13 理论教育 版权反馈

【摘要】：为了解决这一问题，Li等人[22]于2019年提出了双向学习框架，用于无监督域适应语义分割，如图8.6所示。Lseg是语义分割损失。图8.8双向学习的域适应语义分割方法的整体网络结构和损失函数[22]当学习图像转换模型F时，生成对抗损失LGAN和重构损失Lrecon分别定义为其中，IS和IT分别是来自源域S和目标域T中的图像，是源域图像IS经过图像转换网络F得到的转换图像，是L1范数。

2017年Hoffman等人[21]提出一个两阶段语义分割方法。第一阶段通过图像转换模型F，将源域S中的图像转换为与目标域T中图像表观相似的图像；第二阶段使用第一阶段转换后的源域F（S）中的图像训练自适应分割网络M。其中，F（S）具有和S相同的标注LS。两个网络可以采用顺序学习的方式进行训练，如图8.6（a）所示。在顺序学习中，一旦学习得到图像转换模型F，它就固定了，不能通过自适应分割网络M的反馈来进一步调整其参数。为了解决这一问题，Li等人[22]于2019年提出了双向学习框架，用于无监督域适应语义分割，如图8.6（b）所示。该框架交替优化图像转换网络F和分割自适应网络M，以减少源域和目标域之间的域偏移，最终整个网络形成闭环学习。

图8.6　域适应语义分割中的顺序学习与双向学习[22]

（a）顺序学习；（b）双向学习

1.双向学习

前向方向（即F→M）的学习类似于图8.6（a）中的顺序学习。首先使用源域S和目标域T的图像数据训练图像转换模型F，获得转换后的源域S′=F（S），S′具有和S相同的像素级类别标签LS。然后利用S′和LS来训练自适应分割模型M，其相应的损失函数表示为

其中，Ladv是域对抗损失，用来衡量S′和T在自适应分割模型中习得的特征表示分布之间的距离。Lseg是语义分割损失。λadv是平衡系数。

后向方向（即M→F）的学习是为了让更新过的自适应分割模型M能反过来促进图像转换模型F的进一步调整。训练图像转换模型F的损失函数表示为

式中，F-1旨在将目标域图像转换为与源域图像表观相似的图像。T′=F-1（T）是转换后的目标域。生成对抗损失LGAN使得S′和T、S和T′之间的分布差异减少。重构损失Lrecon使得S′和T′分别经过F-1和F后能重新变换回S和T，也就是使得F-1和F在改变图像表观的同时能够保持图像结构信息不变。感知损失Lper保持了S和S′、T和T′之间的语义一致性，这又意味着，一旦学得了理想的自适应分割模型M，即使S和S′之间（或T和T′之间）存在域偏移，S和S′（或T和T′）也应该具有相同的分割结果。λGAN和λrecon是平衡参数。

2.自监督学习

在前向方向中，对目标域中图像进行像素级类别预测后，可以获得较高可信度的部分像素点的伪标签。根据这些伪标签，相应的像素就可以通过分割损失直接与源域数据S对齐。式（8.6）中训练自适应分割模型M的损失函数可以改写为

其中，Tssl⊂T是具有伪标签的目标域像素点构成的集合。图8.7解释了自监督学习的原理。在步骤一中，当第一次学习自适应分割模型M时，由于源域和目标域的域偏移较大，Tssl是空的，S和T之间的域偏移可以通过式（8.6）中的损失LM1来减小。这一过程对应图8.7（a）。在步骤二中，在目标域数据T中选取与S对齐的像素点以构造子集Tssl，Tssl通过式（8.8）中的的损失LM2来进一步减小域偏移，从而减少了目标域T中需要与源域S对齐的像素点个数。这一过程对应于图8.7（b）。然后通过重复步骤二将未与源域对齐的目标域像素点向源域对齐。

图8.7　双向学习域适应语义分割中的自监督学习过程[22]（见彩插）(https://www.daowen.com)

（a）步骤一；（b）步骤二
注：图中的点表示像素点

3.网络结构和损失函数

图8.8为双向学习的域适应语义分割方法的整体网络结构和损失函数。

图8.8　双向学习的域适应语义分割方法的整体网络结构和损失函数[22]

当学习图像转换模型F时，生成对抗损失LGAN和重构损失Lrecon分别定义为

其中，IS和IT分别是来自源域S和目标域T中的图像，是源域图像IS经过图像转换网络F得到的转换图像，是L1范数。DF是域分类器。对于重构损失Lrecon来说，L1范数是为了保持IS与F-1（）之间的循环一致性，即使得经过F-1后还能变回IS（这里仅列出了两项损失的正向表示，LGAN（S，T′）和Lrecon（T，F（T′））也可以同样定义）。感知损失Lper将图像转换模型和自适应分割模型连接起来，约束IS与、IS与F-1（）的语义一致性，定义为

根据对称性可得到Lper（M（T），M（T′））的定义。

在学习自适应分割模型M时，域对抗损失Ladv定义为

对于源域图像IS，分割损失Lseg采用交叉熵损失，定义为

其中，H和W分别是输出像素级分类概率图的高度和宽度；lS是源域图像IS对应的像素级标签图，表示像素（h，w）的类别标签，C是类别个数，PS是自适应分割模型输出的像素级分类概率图，定义为，表示像素（h，w）属于类别c的概率。对于目标域图像IT，首先需要为其生成像素级伪标签图。具体采用最大概率阈值（max probability threshold，MPT）方法选择具有较高置信度的像素。根据自适应分割模型输出的M（IT），可由计算得到。由此，对于目标域图像IT，其分割损失Lseg定义为