小言_互联网的博客

LIVE 预告 | 华为诺亚韩凯:Transformer in Transformer

310人阅读  评论(0)

近期,华为诺亚方舟实验室的研究者提出了一种新型视觉Transformer网络架构,Transformer in Transformer,性能表现优于谷歌的 ViT 和 Facebook 的DeiT。该网络中的TNT模块,通过内外两个Transformer 联合提取图像局部和全局的特征。

Transformer in Transformer 架构

具体而言,新提出的 TNT block 使用一个外 Transformer block 来对 patch 之间的关系进行建模,用一个内 Transformer block 来对像素之间的关系进行建模。通过 TNT 结构,研究者既保留了 patch 层面的信息提取,又做到了像素层面的信息提取,从而能够显著提升模型对局部结构的建模能力,提升模型的识别效果。该网络在ImageNet 图像识别任务上,Top-1正确率达到81.3%。

智源社区特邀请论文《Transformer in Transformer》一作华为诺亚方舟实验室高级研究员韩凯就其研究过程及内容做报告分享,欢迎大家参与交流讨论。

报告主题:Transformer in Transformer

报告时间:2021年3月8日(周一)晚上8:00~9:00

报告形式:线上(Zoom + 智源社区Hub + B站直播)

 

讲者介绍:韩凯,华为诺亚方舟实验室高级研究员。北京大学硕士,浙江大学学士。主要研究方向为深度学习和计算机视觉,已在CCF-A类会议发表论文十余篇,担任NeurIPS/ICML/ICLR/AAAI/IJCAI/TCSVT等会议和期刊审稿人。

 

报告摘要:

Transformer 网络推动了诸多自然语言处理任务的进步,而近期 transformer 开始在计算机视觉领域崭露头角,比如ViT和DETR等。本次报告介绍一种新型视觉 Transformer 网络架构 Transformer in Transformer,它的表现优于谷歌的 ViT 和 Facebook 的 DeiT。论文提出了一个全新的 TNT 模块(Transformer iN Transformer),旨在通过内外两个 transformer 联合提取图像局部和全局特征。通过堆叠 TNT 模块,研究者搭建了全新的纯 Transformer 网络架构——TNT。值得注意的是,TNT 还暗合了 Geoffrey Hinton 最新提出的 part-whole hierarchies 思想。在 ImageNet 图像识别任务上,TNT 在相似计算量情况下的 Top-1 正确率达到 81.3%,高于 DeiT 的 79.8% 和 ViT 的 77.9%。

论文链接:https://arxiv.org/abs/2103.00112

代码链接:https://github.com/huawei-noah/noah-research/tree/ master/TNT

 

观看方式:

智源社区Hub直播:(点击【阅读原文】或扫描下方二维码)

(社区报名,可收到短信定时提醒)

Zoom 观看:https://zoom.com.cn/j/61801320784(无密码)

 

B站直播:https://live.bilibili.com/21484823

欢迎加入智源研究组

(加入研究组,共同讨论最新进展)


转载:https://blog.csdn.net/BAAIBeijing/article/details/114529387
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场