点击上方“CVer”,选择加"星标"置顶
重磅干货,第一时间送达
近期 Transformer在CV领域非常火,很多方向出现了不少优质的工作。其中今年非常有代表性就是:DETR、ViT等。
本文将介绍的就是华为等联合最新提出的视觉Transformer综述。
注:文末附综述PDF下载和Transformer交流群
21页Visual Transformer综述,共计156篇参考文献!
本文将视觉Transformer模型根据不同的任务进行分类(如检测、分类、视频等),并分析了这些方法的优缺点!
A Survey on Visual Transformer
发布时间:2020.12.24
作者单位:华为诺亚, 北京大学, 悉尼大学
论文:https://arxiv.org/abs/2012.12556
Transformer是一种主要基于自注意力机制的深度神经网络,最初应用于自然语言处理领域。
受到Transformer强大的表示能力的启发,研究人员提议将Transformer扩展到计算机视觉任务。与其他网络类型(例如CNN和RNN)相比,基于Transformer的模型在各种视觉基准上显示出竞争甚至更好的性能。
在本文中,我们通过将这些视觉Transformer模型分类为不同的任务,并分析了这些方法的优缺点,提供了文献综述。特别地,主要类别包括基本图像分类,高级视觉,低级视觉和视频处理。
由于自注意力是的Transformer基本组成部分,因此也简要回顾了计算机视觉中的自注意力。包括有效的Transformer方法,可将Transformer推入实际应用。
基于Transformer的语言代表性模型
视觉Transformer
图像分类领域近期很有代表性的工作有:iGPT、ViT、BiT-L等
推荐阅读:
Amusi 补充:还有刚出的DeiT
目标检测领域近期很有代表性的工作有:DETR、Deformable DETR等
推荐阅读:
车道线检测领域近期很有代表性的工作有:LSTR
Low-level Vision领域近期很有代表性的工作有:IPT
推荐阅读:
还有很多方向的Transformer应用介绍,详见综述
综述PDF下载
后台回复:Transformer综述,即可下载论文PDF
重磅!Transformer大法 微信交流群已成立
扫码添加CVer小助手,可申请加入CVer-Transformer 微信交流群
同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加群
▲长按关注我们
整理不易,请给CVer点赞和在看!
转载:https://blog.csdn.net/amusi1994/article/details/111659584