ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2022
1

按主题分类

计算机科学的集成理论
1

按作者

按机构

当前资源共 1条

隐藏摘要

点击量

时间

1. ChinaXiv:202206.00052
下载全文

基于Transformer的图像分类网络MultiFormer

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2022-06-06 合作期刊: 《计算机应用研究》

胡杰昌敏杰熊宗权徐博远谢礼浩郭迪

摘要：为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点，提出了一种基于Transformer的图像分类网络称为MultiFormer。MultiFormer通过AWS(Attention With Scale)模块，将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁；通过GLA-P(Global-Local Attention With Patch)模块交替捕获局部和全局注意力，在嵌入时同时保留了细粒度和粗粒度特征。设计了MultiFormer-Tiny、-Small和-Base三种不同变体的MultiFormer模型网络，在ImageNet图像分类实验中Top-1精度分别达到81.1%、82.2%和83.2%，后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升3.1%和3.4%；对比同样基于Transformer分类模型ViT，MultiFormer-Base在参数和计算量远小于ViT-Base/16模型且不需要大量数据预训练前提下提升2.1%。

点击量 6265 下载量 661 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募志愿者许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心