摘要

最近，纯基于注意力的神经网络被证明可以解决图像理解任务，如图像分类。这些高性能的是使用大型基础设施预先训练数以亿计的图像，从而限制了它们的采用。

本文仅通过在Imagenet上训练，产生有竞争力的无卷积transformer。我们用一台电脑在不到3天的时间里训练它们。所提出的参考视觉transformer (86M参数)在没有外部数据的情况下，在ImageNet上实现了83.1%(单裁剪)的top-1精度。

更重要的是，引入了transformer特有的师生策略。它依赖于蒸馏令牌，确保学生通过注意力从老师那里学习。展示了这种基于令牌的蒸馏的兴趣，特别是在使用convnet作为老师时。这导致我们报告的结果在Imagenet(获得高达85.2%的精度)和转移到其他任务时都与convnets竞争。我们共享我们的代码和模型。

1 介绍

卷积神经网络一直是图像理解任务的主要设计范式，正如最初在图像分类任务中演示的那样。他们成功的一个因素是大型训练集的可用性，即Imagenet[13,42]。受自然语言处理中基于注意的模型的成功[14,52]的激励，人们对利用convnets中的注意机制的架构越来越感兴趣[2,34,61]。最近，一些研究人员提出了将transformers成分移植到convet的混合架构，以解决视觉任务[6,43]。

Dosovitskiy等人[15]介绍的vision transformer(ViT)是直接继承自然语言处理[52]的体系结构，但应用于以原始图像补丁为输入的图像分类。他们的论文展示了用大型私有标记图像集(JFT-300M[46]， 3亿张图像)训练的tra

转载：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128180419

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

【第58篇】DEiT：通过注意力训练数据高效的图像transformer &蒸馏

摘要

1 介绍

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场