MobileMamba:精度速度双杀MobileNet,轻量级三阶段Mamba网络,有效提取高频细节,ImageNet-1K数据集Top-1准确率超83.6%。
原文标题:CVPR MobileMamba:精度速度双杀MobileNet
原文作者:数据派THU
冷月清谈:
1. **三阶段网络结构:** 相比传统的四阶段网络,MobileMamba的三阶段设计在相同吞吐量下能实现更高的精度,或在相同性能下提供更高的吞吐量。这种结构调整优化了特征图的尺寸,在保证全局信息提取的同时,减少了计算复杂度,提升了推理速度。
2. **高效的多感受野特征交互模块(MRFFI):** MRFFI模块通过长距离小波变换增强的Mamba(WTE-Mamba)、多核深度可分离卷积(MK-DeConv)和消除冗余恒等映射三种机制,增强了模型对多尺度感受野的感知能力,并且降低了计算复杂度。
3. **有效感受野优势:** 可视化结果表明,MobileMamba结合了全局和多尺度局部感受野的优势,既能捕捉长距离依赖,又能有效提取高频细节信息,且计算复杂度较低。
4. **实验数据支撑:** 在ImageNet-1K数据集上的实验结果表明,MobileMamba在不同模型规模下Top-1准确率均超过了现有的CNN、ViT和Mamba等模型,展现出卓越的性能和效率。
怜星夜思:
2、MobileMamba中提到的“有效感受野”是什么意思?它对视觉模型的性能有什么影响?
3、文章提到了MobileMamba在ImageNet-1K数据集上表现优异,那么在其他数据集或者实际应用场景中,它的表现会如何?
原文内容
来源:学姐带你玩AI本文约2500字,建议阅读5分钟本文介绍了一种名为MobileMamba的轻量化视觉网络,旨在平衡模型的性能和效率,以满足移动设备等资源受限环境下的视觉处理需求。
论文地址: MobileMamba: Lightweight Multi-Receptive Visual Mamba Network
论文地址:https://arxiv.org/abs/2411.15941
代码地址:https://github.com/lewandofskee/MobileMamba
创新点
-
提出了一种三阶段的MobileMamba框架,相比传统的四阶段网络,在相同的吞吐量下,三阶段网络能够实现更高的准确率,同时在相同的性能下具有更高的吞吐量。
-
通过小波变换增强高频细节信息的提取,同时进行全局建模,扩大了有效感受野(ERF)。
方法
本文介绍了一种名为MobileMamba的轻量化视觉网络,旨在平衡模型的性能和效率,以满足移动设备等资源受限环境下的视觉处理需求。该网络通过一系列创新设计,在保持低计算复杂度的同时,显著提升了模型的准确性和推理速度。MobileMamba采用了三阶段网络结构,与传统的四阶段网络相比,在相同的吞吐量下,三阶段网络能够实现更高的准确率,同时在相同的性能下具有更高的吞吐量。这种设计在保持模型轻量化的同时,显著提升了推理速度。此外,作者还设计了一个高效的多感受野特征交互模块(MRFFI),该模块通过长距离小波变换增强的Mamba(WTE-Mamba)、多核深度可分离卷积(MK-DeConv)和消除冗余恒等映射三种机制,增强了模型对多尺度感受野的感知能力,同时降低了计算复杂度。
不同架构的有效感受野可视化与性能对比
本图展示了不同视觉模型架构的有效感受野(Effective Receptive Field, ERF)可视化结果以及它们在性能与计算复杂度(FLOPs)之间的对比。图的上半部分通过可视化展示了CNN、Transformer和MobileMamba等不同架构的有效感受野分布。CNN架构的有效感受野较为局限,集中在中心区域,缺乏长距离相关性;Transformer架构具有全局的有效感受野,能够捕捉长距离依赖关系,但其计算复杂度较高,尤其是在高分辨率输入下,计算开销巨大。而MobileMamba架构则结合了全局和多尺度局部感受野的优势,在保持线性计算复杂度的同时,能够有效提取高频细节信息,其有效感受野分布更为广泛且均匀。图的下半部分则对比了近期CNN、Transformer和Mamba基础方法的性能与FLOPs关系。从图中可以看出,MobileMamba在不同FLOPs规模下均展现出优越的性能表现,其Top-1准确率在多个模型尺寸上均超过了现有的CNN、ViT和Mamba基础方法。
Mamba基础方法的准确率与速度对比
本图展示了基于Mamba架构的不同轻量化视觉模型在准确率与推理速度之间的对比关系。图中通过折线图的形式,清晰地呈现了各个Mamba基础模型在GPU上的推理速度(以每秒处理的图像数量为单位)与对应的Top-1准确率之间的权衡。 从图中可以看出,现有的Mamba基础模型虽然在计算复杂度上具有优势,但在实际的推理速度和性能表现上存在一定的局限性。例如,一些模型虽然FLOPs较低,但由于架构设计上的不足,导致推理速度较慢,无法充分发挥其理论上的效率优势。而MobileMamba则在这一对比中脱颖而出,它在保持较低FLOPs的同时,显著提升了推理速度,并且在Top-1准确率上也取得了显著的提升。
MobileMamba的粗粒度设计结构对比
本图展示了MobileMamba网络的粗粒度设计,重点比较了三阶段网络结构与传统四阶段网络结构在性能和效率方面的差异。图中通过结构示意图和实验数据对比,清晰地阐述了为什么选择三阶段网络作为MobileMamba的基础框架。 在本图中,作者首先介绍了常见的四阶段网络结构,这种结构通常在第一阶段进行较大幅度的下采样,导致后续特征图尺寸较小,虽然有利于全局信息的提取,但计算复杂度较高,推理速度较慢。相比之下,MobileMamba采用的三阶段网络结构在第一阶段下采样的程度较轻,保留了较大的特征图尺寸,这使得模型在后续处理中能够更有效地利用局部信息,同时减少了计算量,提高了推理速度。
实验
本表展示了MobileMamba模型在ImageNet-1K数据集上的分类性能,与现有的多种先进模型进行了详细的对比。这些模型涵盖了CNN、Transformer、Mamba/RWKV等不同架构类型,通过对比它们的FLOPs(计算量)、参数量、输入分辨率、Top-1准确率以及是否使用训练策略等关键指标,全面评估了MobileMamba的性能和效率。 从表中可以看出,MobileMamba在不同模型规模下均展现出了优异的性能。例如,MobileMamba-T2模型在255M FLOPs下达到了73.6%的Top-1准确率,而使用训练策略(标记为†)后,准确率进一步提升至76.9%。与之相比,同计算量范围内的其他模型,如SHViTS1(Transformer架构)的Top-1准确率为72.8%,而MobileMamba-T2不仅准确率更高,且计算量更低。这表明MobileMamba在轻量化模型设计中,能够在较低的计算资源消耗下实现更高的分类性能。 进一步地,随着模型规模的增大,MobileMamba的性能优势更加明显。例如,MobileMamba-B4模型在4313M FLOPs下达到了82.5%的Top-1准确率,而使用训练策略后,准确率提升至83.6%。这一性能超过了现有的多种先进模型,包括EfficientVMamba-B(4000M FLOPs,Top-1准确率为81.8%)和ViL-B(18600M FLOPs,Top-1准确率为82.4%)。值得注意的是,尽管ViL-B的计算量远高于MobileMamba-B4,但其准确率却略低于MobileMamba-B4,这充分证明了MobileMamba在效率和性能平衡方面的卓越设计。
编辑:文婧





