飞道的博客

Channel Interaction Networks for Fine-Grained Image Categorization论文解读

433人阅读  评论(0)

来自于码隆科技的2020 AAAI的一篇关于细粒度识别的文章,来自公司论文很不好的一点就是可能不会开源源码,这一点比较遗憾。

Contributions
  1. 提出了一个self-channel interaction(SCI)模块,对图像中不同通道之间的相互作用进行建模,这使它能够捕获每个通道的通道补充信息,从而增强了每个通道学习到的判别特征
  2. 提出了一个 novel contrastive channel interaction (CCI) 模块,学习图像之间的通道关系,动态地从两个比较的图像中识别出distinctive region。
Methodology


整个的model如上图所示,给定一个图像对,然后两个图像先经过backbone提取特征,生成一对feature map,随后经过SCI模块,来获取每个通道的补充信息,然后将原始特征和补充信息中的distinctive feature汇总在一起,然后将汇总后的特征输入到CCI模块,通过这个模块中的对比性损失,对两个图像之间的通道方向关系进行建模。

Self-Channel Interaction


通过上图,我们可以看到在特征通道中丰富的编码知识,并没有仅仅的去获取most discriminate channels,而是去尝试计算通道级的关系,来提取互补信息,然后将其与原始特征进行编码以进行细粒度分类。
输入图片 I I X R w × h × c X^{'}\in \Bbb{R}^{w\times h\times c} 表示通过backbone提取的特征,然后将其reshape成 X R c × l , l = w × h X\in \Bbb{R}^{c\times l},l=w\times h ,SCI模块的输出是

其中 W W 表示SCI的权重矩阵,其计算方式如下

其中 k = 1 c W i k = 1 \sum_{k=1}^{c}W_{ik}=1 ,需要留意的是 Y i Y_{i} 表示 X i X_i 和X的所有通道之间的交互,计算例子如下: Y i = W i 1 X 1 + . . . + W i c X c Y_i=W_{i1}X_{1}+...+W_{ic}X_{c} 。这个W是一个 c × c c\times c 的矩阵。

对于W的定义,我们可以看出,权重较大的通道在语义上更加倾向于与 X i X_{i} 互补,因为生成的特征Y会丢失原始特征的某些信息,因此将生成特征和原始特征中distinctive feature进行汇总,

ϕ \phi 是一个 3 × 3 3\times 3 的卷积层,Z是一个discriminate features。

通过SCI模块,其实已经得到了有意义discriminate features,那么后面加一个softmax classifier进行分类应该也是可以的,但是无法捕获细粒度分类中的细微差异。

Contrastive Channel interaction (CCI)

作者认为图像 I A I_A I B I_B 的SCI权重矩阵进行简单的相减就可以得到两幅图像之间的相互作用,其通道是通过对比从对比的图像中计算出来的特征通道来进行强调的,

W A B W B A W_{AB}、W_{BA} 是通过CCI产生的权重矩阵, γ , η \gamma,\eta 分别是 [ Y A , Y B ] [Y_A,Y_B] [ Y B , Y A ] [Y_B,Y_A] 通过全连接层 ψ \psi 学习的权重, || 表示绝对值,作者这里说尝试了其他的运算来获取相互作用,但是效果都没有减法好,减法的话会抑制共性并突出显示两个图像之间独特的通道关系。但是这是不是最好的方式,要保留悬念。
然后CCI的权重矩阵 W A B W_{AB} W B A W_{BA} 应用于特征 X A X_A X B X_B

Y A = W A B X A Y B = W B A X B Y_A^{'}=W_{AB}X_{A},Y_B^{'}=W_{BA}X_{B}

Loss Function

使用contrastive loss作为损失函数,假设每个batch中含有N个image pairs(2N images),那么contrastive loss如下所示

整个模型的损失函数为


转载:https://blog.csdn.net/WangKingJ/article/details/105752247
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场