对于特征 Dropout 边界框的稳定性反应了检测器在不同环境的泛化性

本文最后更新于 2024年3月25日下午

本文为论文 “Bounding Box Stability against Feature Dropout Reflects Detector Generalization across Environments” (Yang, et.al.) 的阅读笔记。

介绍

对于目标检测任务，我们通常使用 mAP 通过对比预测的 bbox 和 ground truth 来衡量预测的精确度。然而在实际场景中，我们并没有 GT，因此难以衡量检测器的泛化能力。

该论文从一个新的角度来衡量 bbox 的质量：bbox 在特征扰动下的稳定性。

具体来说，给定一张图片和一个训练后的检测器，使用 Monte Carlo dropout 在测试处理中，随机地让 backbone 输出的一些特征图为 0，此后，使用二分图匹配来寻找有无扰动的 bbox 的映射关系。接着，计算他们之间的 IoU 作为边框稳定性分数（BoS score）.

BoS Score

定义 $N_{\text{ori}}$ 为原本的检测器检测的目标数，$N_{\text{per}}$ 为相同图像下经过 MC dropout 扰动的检测器检测到的目标数量。令 $N$ 和 $N_{\text{max}}$ 分别代表 $N_{\text{ori}}$ 和 $N_{\text{per}}$ 中较小和交大的值。

在这个基础上，我们记有较少目标的预测集合为 $y=\{y_j\}_{j=1}^N$，较多的为 $\hat{y}=\{\hat{y}_j\} ^{N _{\text{max}}}$。

为了寻找两个集合的二分图匹配，我们在 $N$ 个元素的枚举中寻找最小的损失：

$$
\hat{\sigma} = \underset{\sigma \in \mathcal{\Sigma} _N}{\arg \min} \sum _j^N \mathcal{L} _\text{match} (y_j, \hat{y} _{\sigma(j)})
$$

其中 matching loss 可以用 GIoU 损失来定义：

$$
\mathcal{L}(y, \hat{y})=\frac{\sum _j^N \mathcal{L} _{\text{giou}(b_j, \hat{b} _{\sigma(j)})}}{N}
$$

其中 $b_j, \hat{b}_{\sigma(j)}$ 为一对匹配上的 bbox. 接着就可以使用 M 张匹配的损失来衡量测试集 $\mathcal{D}^u$ 的 BoS Score:

$$
\text{BS}(\mathcal{D}^u) = \frac{\sum _{i=1}^N \mathcal{L}_i}{M}
$$

#AI #论文阅读 #CV

对于特征 Dropout 边界框的稳定性反应了检测器在不同环境的泛化性

http://example.com/2024/03/25/对于特征-Dropout-边界框的稳定性反应了检测器在不同环境的泛化性/

作者

IceLocke

发布于

2024年3月25日

许可协议

Dive into Deep Learning: 注意力机制基础下一篇