Have a Question?

可变形卷积 | Deformable Convolutional Networks, DCN

You are here:

1 定义

可变形卷积 (Deformable Convolutional Networks, DCN) 的主要目的是学习动态感受野。它在卷积采样层上,添加了位移变量,这个变量根据数据的情况学习偏移后,从而改变了感受野的范围。
公式化表述可以理解为,原始卷积为:
\mathbf{y}(\mathbf{p})=\sum_{\mathbf{p}_{n} \in \mathcal{R}} \mathbf{w}\left(\mathbf{p}_{n}\right) \cdot \mathbf{x}\left(\mathbf{p}+\mathbf{p}_{n}\right)\tag{1}
其中 \mathbf{p} 代表卷积的中心点坐标,\mathbf{p}_{n} 代表卷积 \mathcal{R} 范围内的偏移量,\mathbf{x}(\cdot) 表示取该点的像素值。而 DCN 就是在此基础上再加上一个 offset 预测 \Delta p 以及 feature 权重 \Delta m
\mathbf{y}(\mathbf{p})=\sum_{\mathbf{p}_{n} \in \mathcal{R}} \mathbf{w}\left(\mathbf{p}_{n}\right) \cdot \mathbf{x}\left(\mathbf{p}+\mathbf{p}_{n}+\Delta \mathbf{p}_{n}\right) \cdot \Delta \mathbf{m}_{n}\tag{2}
其中由于 \Delta p 一般都是浮点数,所以实际实现会用到双线性插值的方式。

如下图所述为卷积、可变形卷积以及可变形卷积的两个特例。

参考文献

[1] Deformable Convolutional Networks
[2] ASLFeat: Learning Local Features of Accurate Shape and Localization

Add a Comment

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Table of Contents