胶囊网络全新升级！引入自注意力机制的Efficient-CapsNet_小言_互联网的博客

胶囊网络全新升级！引入自注意力机制的Efficient-CapsNet

2021-03-25 10:50 1126人阅读评论(0)

©PaperWeekly 原创 · 作者｜孙裕道

学校｜北京邮电大学博士生

研究方向｜GAN图像生成、情绪对抗样本生成

论文链接：

https://arxiv.org/abs/2101.12491

论文代码：

https://github.com/EscVM/Efficient-CapsNet

Capsule介绍

深度学习之父 Hinton 针对卷积神经网络在特征提取的时候会忽略特征之间的关系的这个问题提出了 Capsule Network，卷积神经网络虽然能够通过卷积和池化能解决一定程度上平移不变性，旋转不变性以及放缩不变性，但是不能考虑到特征之间的相对位置关系。Capsule 是一个拥有多个神经元标量的组合体向量，它能够识别一个视觉实体，并输出关于该实体的方向，大小，物体与物体之间的相对位置关系等。

考虑如下场景，如果你是一名空军指挥官，要执行一次无人机的精准轰炸任务，其中一次轰炸大任务分为扫描任务，定位任务和轰炸任务三个子任务，为了能够让敌军城市瘫痪，最佳的选择轰炸目标就是电力供应中枢核电站，如下图标注所示，CNN 其实只能执行第一类无人机的扫描任务，判别该城市中是否有主要的目标核电站的存在，Capsule Network 则可以执行第二类无人机的定位任务，因为其输出的实例化参数中有核电站的相对位置信息。

1.1 Capsule Network的解析

1.1.1 Capusle Network的算法框架

Capsule Network 最核心的算法就是动态路由算法，将论文中的算法简化成如下算法所示：

为了能够能加清晰直观的阐述出 Capsule Network 动态路由算法的细节，根据如上算法框架做了如下两幅分别时动态路由迭代一次和动态路由迭代多次（3 次）的原理图。

▲图1.Capsule Network参数更新迭代一次原理图

▲图2.Capsule Network参数更新迭代一次原理图

1.1.2 仿射变换

在上面的算法流程图中仿射变换中，表示将低一层的特征向量通过仿射矩阵映射成高一层特征向量。如以下图的皮卡丘的分解图示为例：

该图片示由皮卡丘和其背景构成
皮卡丘整体是由脸颊和身体构成
身体则是由小短腿和躯干构成
脸部又有嘴和眼睛构成

仿射矩阵可以看作是了局部和整体的一种相对关系，如上图所示每个部分对应的仿射矩阵在图中所标注，则有：

皮卡丘的脸颊对该图像的仿射矩阵为
皮卡丘的身体对该图像的仿射矩阵为
皮卡丘的眼睛对该图像的仿射矩阵为
皮卡丘的嘴巴对该图像的仿射矩阵为
皮卡丘的腿部对该图像的仿射矩阵为
皮卡丘的躯干对该图像的仿射矩阵为

假定是皮卡丘眼睛的位置向量，是皮卡丘嘴巴的位置向量。则我们可以求出皮卡丘脸颊的位置向量为。

1.1.3 动态路由算法

耦合系数系数的计算公式是。耦合系数是通过动态路的方法计算出来的。耦合系数的主要作用是最大池化的一个加强版。最大池化依靠提取特征的区域最大化，以此来提取到了这个区域里最显著的特征信息，但是它存在一个问题是它忽略了其他有用信息的信息。动态路由算法确定耦合系数目的也是提取特征信息，但是它并不会丢弃其它相关的信息。

动态路由算法中是 Capsule Network 的非线性的激活函数。公式中的是将向量的长度控制在范围 [0,1] 中，公式中的作用是将特征向量正则化为单位向量。公式则是用于动态路由更新参数。

Efficient-Capsnet

2.1 论文贡献

论文中提出的 Efficient-Capsnet 方法大大减少了可训练参数的数量。
论文中提出的 Efficient-Capsnet 方法在三个不同的数据集上获得最先进的结果。
引入了一种新颖的非迭代、高度并行的路由算法，该算法利用 Self-ATTENTION 来有效地路由数量减少的 Capsnet。

2.2 模型介绍

下图为 Efficient-Capsnet 整体架构示意图。该网络可以大致分为三个不同的部分，其中前两个部分是主 Capsnet 层与输入空间交互的主要工具。每个 Capsnet 利用下面的卷积层滤波器将像素强度转换成它所作用的特征的矢量表示。

Capsnet 内神经元的活动体现了它在训练过程中学会代表的实体的各种属性，其中这些属性可以包括许多不同类型的实例化参数，例如姿态、纹理、变形以及特征本身的存在。每个向量的长度用于表示胶囊所代表的实体存在的概率，不需要任何合理的目标函数最小化。网络的最后一部分在自我关注算法下运行，将低级胶囊路由到它们所代表的整体。