transformer在计算机视觉任务中显示出了巨大的潜力。人们普遍认为,他们基于注意力的token混合器模块对他们的能力贡献最大。然而,最近的工作表明,transformer中基于注意力的模块可以被空间mlp取代,得到的模型仍然表现相当好。基于这一观察,本文假设transformer的通用架构,而不是特定的token mixer模块,对模型的性能更重要。为验证这一点,故意用一个简单得令人尴尬的空间池化操作符取代transformer中的注意力模块,以只进行基本的token混合。提出的模型称为PoolFormer,在多个计算机视觉任务上实现了有竞争力的性能。例如,在ImageNet-1K上,PoolFormer实现了82.1%的top-1精度,比经过良好调整的视觉Transformer/类mlp基线DeiT-B/ResMLP-B24提高了0.3%/1.1%的精度,参数减少了35%/52%,mac减少了50%/62%。PoolFormer的有效性验证了我们的假设,并敦促我们发起" MetaFormer "的概念,一种从transformer抽象出来的通用架构,而不指定token混合器。MetaFormer是在最近的Transformer和类mlp模型在视觉任务上取得优越结果的关键角色。这项工作呼吁未来进行更多致力于改进MetaFormer的研究,而不是专注于token mixer模块。所提出的PoolFormer可以作为未来MetaFormer架构设计的起始基线。
1. 介绍
transformer在计算机视觉领域获得了极大的兴趣和成功[3,8,44,55]。自从视觉Transformer (ViT)[17]将纯Tra
转载:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128281326