ICLR 2026:中国联通MeanCache框架刷新多模态生成模型推理加速纪录

中国联通MeanCache框架,用平均速度缓存加速扩散模型推理,提速4倍+,已在ICLR 2026发表并开源。

原文标题:ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

原文作者:机器之心

冷月清谈:

中国联通联合南京大学提出了名为MeanCache的扩散模型缓存框架,旨在解决多模态生成模型(如FLUX、Qwen-Image)推理速度慢的问题。该框架基于此前的工作LeMiCa,创新性地引入“平均速度”视角,通过JVP(雅可比-向量积)修正生成轨迹,实现4倍以上的推理提速。MeanCache包含JVP驱动的平均速度计算和轨迹稳定调度策略两个核心技术点。实验结果表明,MeanCache在文生图(Qwen-Image、FLUX.1)和文生视频(HunyuanVideo)任务中均实现了显著的加速和SOTA指标提升,尤其在处理生僻Prompt时表现出更强的语义鲁棒性。该框架已获得阿里通义Z-Image团队的推荐,并支持ComfyUI。MeanCache的核心在于其轻量化、免训练的特性,通过平均速度缓存和轨迹稳定性调度,在保证生成质量的同时显著提升大模型推理效率。

怜星夜思:

1、MeanCache通过JVP修正平均速度,这个“平均速度”比“瞬时速度”更适合缓存加速,直觉上是为什么?
2、MeanCache的轨迹稳定调度策略,将推理过程建模成多重图寻优问题,这个思路很新颖。想问下,这个“多重图”具体指的是什么?和传统的图有什么区别?
3、MeanCache在生僻Prompt上表现出更强的语义鲁棒性,这个结论很有意思。大家觉得除了文章里提到的原因,还有没有其他解释?

原文内容


作者和团队介绍:本文第一作者是高焕霖,通讯作者为赵放和廉士国,所有作者均来自联通数据智能有限公司(中国联通数据科学与人工智能研究院)- 元景大模型研发团队和南京大学,专注于联通元景大模型研发。


FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存(Feature Caching)方案在追求高倍率加速时,常因瞬时速度的剧烈波动导致轨迹漂移。


针对这一痛点,中国联通数据科学与人工智能研究院与南京大学研究团队,在此前工作 LeMiCa(NeurIPS 2025 Spotlight)的基础上继续深耕,推出了进阶加速框架 MeanCache


该工作不仅承袭了团队在扩散模型加速领域的深厚积淀,更在技术上实现了跨越:受到 MeanFlow 启发,MeanCache 首次将 “平均速度” 视角引入缓存推理,通过 JVP 修正精准校正了生成轨迹,实现了 4x 以上的推理提速。该成果已入选人工智能顶会 ICLR 2026,目前,论文、代码均已开源。



  • 论文标题:MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

  • 论文链接:https://arxiv.org/pdf/2601.19961

  • 项目主页:https://unicomai.github.io/MeanCache/

  • 代码地址:https://github.com/UnicomAI/MeanCache


技术创新:平均速度驱动的缓存新范式


MeanCache 的核心贡献在于将缓存加速从 “瞬时速度” 转向了 “平均速度”,主要包含以下两个核心技术点:


JVP 驱动的平均速度


为了在不增加推理开销的前提下获取平均速度,MeanCache 引入了雅可比 - 向量积(JVP)作为计算桥梁。基于推导出的起点锚定恒等式,MeanCache 利用前一时间步已缓存的 JVP 信息来修正当前的瞬时速度  :

该建模方式将缓存视角从单一的 “点” 扩展到了 “区间”,通过提供更稳定的引导信号,有效地校正了高倍率加速下的轨迹偏离。



轨迹稳定调度策略


“什么时候该缓存?” 以往的方法多依赖固定步长或手动阈值。MeanCache 将推理过程建模为一个多重图(Multigraph)寻优问题。


它将每个时间步视为节点,将预测均值速度与真实值之间的稳定性偏差定义为边权:

节点和边组成多重图,然后再通过峰值抑制最短路径(Peak-Suppressed Shortest Path)算法,在给定的计算预算下,计算规则下最优的缓存策略:


实验结果:刷新 SOTA 加速表现


文生图


在商业级文生图模型 Qwen-Image 和 FLUX.1 [dev] 分别实现最高 4x 加速,在 Image Reward 和感知指标上取得了 SOTA 的表现。



从视觉效果上看,随着加速比的增大,MeanCache 生成的图片在内容一致性方面表现更好。



文生视频


在视频生成模型 HunyuanVideo 上也实现了 3.6x 加速和 SOTA 的指标提升。



在对视频的定性分析上,MeanCache 也表现出更好的加速效果,不论是画质还是内容一致性方面。



语义一致性:更进一步,针对 rare-word(如下图 "Peristeronic")的高难度生僻 Prompt 的测试下,MeanCache 展现了更强的语义鲁棒性。



业界顶级团队推荐


同时,MeanCache 已支持最新的阿里通义 Z-Image 和 Qwen-Image-2512 文生图模型,并获得了 Z-Image 团队的官方主页推荐,社区已支持 ComfyUI



总结与展望


MeanCache 作为一种轻量化、免训练的 Flow Matching 加速框架,创新性地提出了 “平均速度缓存” 与 “轨迹稳定性调度” 方案。该方案在确保图像高保真度与内容一致性的基础上,显著提升了大模型的推理效率。 联通元景大模型团队将以此为基石,持续深耕模型推理加速及复杂场景生成领域。我们致力于为业界贡献更多元化的技术视角,进一步降低工业级生成模型的使用门槛与算力成本。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我觉得可能和MeanCache的平均速度策略有关。 生僻词通常比较抽象,对应的图像特征可能不够稳定。 如果只依赖瞬时速度,模型可能难以捕捉到这些抽象概念的本质。 平均速度则可以在一定程度上平滑这种不稳定性,让模型更容易理解生僻词的含义,从而生成更符合语义的图像。

同意楼上的观点。从数学角度看,JVP修正平均速度相当于引入了一阶导数信息,这使得MeanCache不仅考虑了当前状态,还考虑了变化趋势,从而更好地预测未来的状态。这有点像PID控制,瞬时速度只相当于P,而平均速度引入了D,能更好地抑制震荡。

从实践的角度补充一点,瞬时速度的缓存加速,如果某一个时间步的计算出现问题,那么整个生成轨迹都会受到影响。而平均速度相当于做了一个容错,即使某一个时间步出现偏差,也能通过前后时间步的信息进行修正,从而提高生成的鲁棒性。当然,这里面也存在一个trade-off,平均速度的计算可能会引入额外的开销,需要在加速效果和计算成本之间进行权衡。

我猜想可能与训练数据的分布有关。 常见词汇在训练数据中出现的频率较高,模型对它们的学习也更充分。 而生僻词则不然,模型可能没有见过或者很少见过,因此容易出现泛化问题。 MeanCache的平均速度策略,可能在一定程度上缓解了这种数据分布不平衡带来的影响,让模型能够更好地泛化到生僻词上。

我觉得这个问题问到了点子上!从我的理解来看,瞬时速度容易受到噪声的影响,导致轨迹漂移。而平均速度考虑了一段时间内的整体趋势,相当于做了一个平滑,可以减少噪声的干扰,从而使得缓存的特征更稳定,引导生成过程也更准确。就好比开车,盯着瞬时速度容易忽快忽慢,把握平均速度才能更平稳。

多重图(Multigraph)允许两个节点之间存在多条边,每条边代表不同的关系或者权重。在MeanCache这里,节点是每个时间步,边是预测均值速度与真实值之间的稳定性偏差。关键在于,同一个时间步之间可以有多条边,对应不同的计算预算下的缓存策略。通过寻找峰值抑制最短路径,就能在计算资源有限的情况下,找到最优的缓存策略。

区别于传统图,多重图能更精细地建模节点之间的复杂关系,这对于优化缓存策略至关重要。

抖个机灵,会不会是MeanCache在处理生僻词的时候,偷偷“查了字典”? 哈哈,开个玩笑。 认真地说,可能MeanCache的算法结构,更适合处理信息量较少的输入。 相比于常见词汇,生僻词的信息量更少,模型需要更多地依赖上下文信息进行推理。 MeanCache可能在利用上下文信息方面做得更好,因此在生僻词上表现更出色。

我理解的多重图,可以看作是多个图的叠加。每个图代表一种缓存策略,节点之间的边权代表该策略下的稳定性偏差。然后,MeanCache的目标就是在这么多图中找到一条“最好”的路径,使得总体的稳定性最高,同时满足计算预算的约束。这种建模方式,把原本复杂的缓存策略选择问题,转化为了一个经典的图论问题,可以用成熟的算法来解决。

如果用更通俗的比喻,多重图就像是多个不同的交通路线图,每条路线的拥堵程度(边权)不一样。你想用最少的钱(计算预算)从A地到B地,就需要在这些路线图中找到一条最快的路径。只不过MeanCache这里的路线图更加复杂,需要考虑更多因素,比如路线的稳定性(会不会突然封路)等等。