分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-06-06 合作期刊: 《计算机应用研究》
摘要: 为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点,提出了一种基于Transformer的图像分类网络称为MultiFormer。MultiFormer通过AWS(Attention With Scale)模块,将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁;通过GLA-P(Global-Local Attention With Patch)模块交替捕获局部和全局注意力,在嵌入时同时保留了细粒度和粗粒度特征。设计了MultiFormer-Tiny、-Small和-Base三种不同变体的MultiFormer模型网络,在ImageNet图像分类实验中Top-1精度分别达到81.1%、82.2%和83.2%,后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升3.1%和3.4%;对比同样基于Transformer分类模型ViT,MultiFormer-Base在参数和计算量远小于ViT-Base/16模型且不需要大量数据预训练前提下提升2.1%。