MobileMamba:轻量高效的视觉Mamba网络,精度媲美MobileNet

MobileMamba:精度速度双杀MobileNet,轻量级三阶段Mamba网络,有效提取高频细节,ImageNet-1K数据集Top-1准确率超83.6%。

原文标题:CVPR MobileMamba:精度速度双杀MobileNet

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为MobileMamba的轻量化视觉网络,旨在解决移动设备等资源受限场景下的视觉处理需求。该网络的核心创新点在于:

1. **三阶段网络结构:** 相比传统的四阶段网络,MobileMamba的三阶段设计在相同吞吐量下能实现更高的精度,或在相同性能下提供更高的吞吐量。这种结构调整优化了特征图的尺寸,在保证全局信息提取的同时,减少了计算复杂度,提升了推理速度。
2. **高效的多感受野特征交互模块(MRFFI):** MRFFI模块通过长距离小波变换增强的Mamba(WTE-Mamba)、多核深度可分离卷积(MK-DeConv)和消除冗余恒等映射三种机制,增强了模型对多尺度感受野的感知能力,并且降低了计算复杂度。
3. **有效感受野优势:** 可视化结果表明,MobileMamba结合了全局和多尺度局部感受野的优势,既能捕捉长距离依赖,又能有效提取高频细节信息,且计算复杂度较低。
4. **实验数据支撑:** 在ImageNet-1K数据集上的实验结果表明,MobileMamba在不同模型规模下Top-1准确率均超过了现有的CNN、ViT和Mamba等模型,展现出卓越的性能和效率。

怜星夜思:

1、MobileMamba采用三阶段网络结构,相比传统的四阶段网络,它有哪些优势?在实际应用中,这种结构可能带来哪些挑战?
2、MobileMamba中提到的“有效感受野”是什么意思?它对视觉模型的性能有什么影响?
3、文章提到了MobileMamba在ImageNet-1K数据集上表现优异,那么在其他数据集或者实际应用场景中,它的表现会如何?

原文内容

图片
来源:学姐带你玩AI
本文约2500字,建议阅读5分钟
本文介绍了一种名为MobileMamba的轻量化视觉网络,旨在平衡模型的性能和效率,以满足移动设备等资源受限环境下的视觉处理需求。


论文地址: MobileMamba: Lightweight Multi-Receptive Visual Mamba Network

论文地址:https://arxiv.org/abs/2411.15941

代码地址:https://github.com/lewandofskee/MobileMamba


创新点


  • 提出了一种三阶段的MobileMamba框架,相比传统的四阶段网络,在相同的吞吐量下,三阶段网络能够实现更高的准确率,同时在相同的性能下具有更高的吞吐量。

  • 通过小波变换增强高频细节信息的提取,同时进行全局建模,扩大了有效感受野(ERF)。


方法


本文介绍了一种名为MobileMamba的轻量化视觉网络,旨在平衡模型的性能和效率,以满足移动设备等资源受限环境下的视觉处理需求。该网络通过一系列创新设计,在保持低计算复杂度的同时,显著提升了模型的准确性和推理速度。MobileMamba采用了三阶段网络结构,与传统的四阶段网络相比,在相同的吞吐量下,三阶段网络能够实现更高的准确率,同时在相同的性能下具有更高的吞吐量。这种设计在保持模型轻量化的同时,显著提升了推理速度。此外,作者还设计了一个高效的多感受野特征交互模块(MRFFI),该模块通过长距离小波变换增强的Mamba(WTE-Mamba)、多核深度可分离卷积(MK-DeConv)和消除冗余恒等映射三种机制,增强了模型对多尺度感受野的感知能力,同时降低了计算复杂度。

不同架构的有效感受野可视化与性能对比



本图展示了不同视觉模型架构的有效感受野(Effective Receptive Field, ERF)可视化结果以及它们在性能与计算复杂度(FLOPs)之间的对比。图的上半部分通过可视化展示了CNN、Transformer和MobileMamba等不同架构的有效感受野分布。CNN架构的有效感受野较为局限,集中在中心区域,缺乏长距离相关性;Transformer架构具有全局的有效感受野,能够捕捉长距离依赖关系,但其计算复杂度较高,尤其是在高分辨率输入下,计算开销巨大。而MobileMamba架构则结合了全局和多尺度局部感受野的优势,在保持线性计算复杂度的同时,能够有效提取高频细节信息,其有效感受野分布更为广泛且均匀。图的下半部分则对比了近期CNN、Transformer和Mamba基础方法的性能与FLOPs关系。从图中可以看出,MobileMamba在不同FLOPs规模下均展现出优越的性能表现,其Top-1准确率在多个模型尺寸上均超过了现有的CNN、ViT和Mamba基础方法。

Mamba基础方法的准确率与速度对比



本图展示了基于Mamba架构的不同轻量化视觉模型在准确率与推理速度之间的对比关系。图中通过折线图的形式,清晰地呈现了各个Mamba基础模型在GPU上的推理速度(以每秒处理的图像数量为单位)与对应的Top-1准确率之间的权衡。 从图中可以看出,现有的Mamba基础模型虽然在计算复杂度上具有优势,但在实际的推理速度和性能表现上存在一定的局限性。例如,一些模型虽然FLOPs较低,但由于架构设计上的不足,导致推理速度较慢,无法充分发挥其理论上的效率优势。而MobileMamba则在这一对比中脱颖而出,它在保持较低FLOPs的同时,显著提升了推理速度,并且在Top-1准确率上也取得了显著的提升。

MobileMamba的粗粒度设计结构对比


本图展示了MobileMamba网络的粗粒度设计,重点比较了三阶段网络结构与传统四阶段网络结构在性能和效率方面的差异。图中通过结构示意图和实验数据对比,清晰地阐述了为什么选择三阶段网络作为MobileMamba的基础框架。 在本图中,作者首先介绍了常见的四阶段网络结构,这种结构通常在第一阶段进行较大幅度的下采样,导致后续特征图尺寸较小,虽然有利于全局信息的提取,但计算复杂度较高,推理速度较慢。相比之下,MobileMamba采用的三阶段网络结构在第一阶段下采样的程度较轻,保留了较大的特征图尺寸,这使得模型在后续处理中能够更有效地利用局部信息,同时减少了计算量,提高了推理速度。


实验


本表展示了MobileMamba模型在ImageNet-1K数据集上的分类性能,与现有的多种先进模型进行了详细的对比。这些模型涵盖了CNN、Transformer、Mamba/RWKV等不同架构类型,通过对比它们的FLOPs(计算量)、参数量、输入分辨率、Top-1准确率以及是否使用训练策略等关键指标,全面评估了MobileMamba的性能和效率。 从表中可以看出,MobileMamba在不同模型规模下均展现出了优异的性能。例如,MobileMamba-T2模型在255M FLOPs下达到了73.6%的Top-1准确率,而使用训练策略(标记为†)后,准确率进一步提升至76.9%。与之相比,同计算量范围内的其他模型,如SHViTS1(Transformer架构)的Top-1准确率为72.8%,而MobileMamba-T2不仅准确率更高,且计算量更低。这表明MobileMamba在轻量化模型设计中,能够在较低的计算资源消耗下实现更高的分类性能。 进一步地,随着模型规模的增大,MobileMamba的性能优势更加明显。例如,MobileMamba-B4模型在4313M FLOPs下达到了82.5%的Top-1准确率,而使用训练策略后,准确率提升至83.6%。这一性能超过了现有的多种先进模型,包括EfficientVMamba-B(4000M FLOPs,Top-1准确率为81.8%)和ViL-B(18600M FLOPs,Top-1准确率为82.4%)。值得注意的是,尽管ViL-B的计算量远高于MobileMamba-B4,但其准确率却略低于MobileMamba-B4,这充分证明了MobileMamba在效率和性能平衡方面的卓越设计。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我比较关心它在工业质检方面的应用。如果能把MobileMamba部署到移动终端上,就可以实现快速、便捷的缺陷检测,大大提高生产效率。但前提是,它的准确率和稳定性要足够高,不能出现误判。

严格来说,不是感受野越大越好,而是要“有效”。有些模型的感受野虽然很大,但实际起作用的区域可能很小,或者分布不均匀。MobileMamba的优势在于,它在保持线性计算复杂度的前提下,扩大了有效感受野,这是一个很巧妙的设计。

有效感受野可以理解为模型真正关注的图像区域。一个大的且分布均匀的有效感受野,意味着模型能够更好地捕捉全局信息和上下文关系,这对于提升模型的泛化能力至关重要。想象一下,如果你的视野总是局限在一个小角落,那肯定难以理解整个场景。

从理论上讲,三阶段结构减少了计算冗余,提高了效率。但挑战在于,如何确保在减少阶段的同时,不损失关键特征的提取能力。可能需要更精巧的特征融合策略,以及更强大的正则化方法,来防止过拟合。

感觉在自动驾驶领域可能会很有用!毕竟需要在移动设备上快速处理图像,MobileMamba这种轻量级的模型应该很有潜力。不过,安全性也很重要,算法的可靠性一定要有保障。

有效感受野大了当然好,能看到的东西更多嘛!但是,是不是感受野越大越好呢?会不会引入太多不相关的噪声,反而影响判断?

我理解三阶段好像能更快更好地提取特征,减少计算量。但是会不会对一些特别复杂的图像,它的识别效果反而不如四阶段的?比如那种有很多小细节需要抠出来的图。

三阶段结构主要是在速度和精度上做了一个平衡。四阶段网络可能前期下采样过多,导致细节丢失,但MobileMamba可以保留更多的局部信息。实际应用中,三阶段结构对硬件的并行计算能力可能要求更高,需要在特定平台上进行优化,例如针对移动端SoC的指令集进行调整。

ImageNet-1K是一个经典的数据集,但现实世界的场景更加复杂多样。MobileMamba在其他数据集上的表现,还需要进一步验证。例如,在目标检测、图像分割等任务中,它的泛化能力如何?在低光照、遮挡等复杂环境下,它的鲁棒性如何?这些都是需要考虑的问题。