华为和北大等提出视觉Transformer：全面调研_飞道的博客

2021-01-18 09:55 884人阅读评论(0)

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

近期 Transformer在CV领域非常火，很多方向出现了不少优质的工作。其中今年非常有代表性就是：DETR、ViT等。

本文将介绍的就是华为等联合最新提出的视觉Transformer综述。

注：文末附综述PDF下载和Transformer交流群

21页Visual Transformer综述，共计156篇参考文献！

本文将视觉Transformer模型根据不同的任务进行分类（如检测、分类、视频等），并分析了这些方法的优缺点！

A Survey on Visual Transformer

发布时间：2020.12.24

作者单位：华为诺亚, 北京大学, 悉尼大学

论文：https://arxiv.org/abs/2012.12556

Transformer是一种主要基于自注意力机制的深度神经网络，最初应用于自然语言处理领域。

受到Transformer强大的表示能力的启发，研究人员提议将Transformer扩展到计算机视觉任务。与其他网络类型（例如CNN和RNN）相比，基于Transformer的模型在各种视觉基准上显示出竞争甚至更好的性能。

在本文中，我们通过将这些视觉Transformer模型分类为不同的任务，并分析了这些方法的优缺点，提供了文献综述。特别地，主要类别包括基本图像分类，高级视觉，低级视觉和视频处理。

由于自注意力是的Transformer基本组成部分，因此也简要回顾了计算机视觉中的自注意力。包括有效的Transformer方法，可将Transformer推入实际应用。

基于Transformer的语言代表性模型

视觉Transformer

图像分类领域近期很有代表性的工作有：iGPT、ViT、BiT-L等