MiniMax M2.5 模型引爆 Agent 应用:一周 Tokens 调用量破 3T,开源生态迎来爆发

MiniMax M2.5 杀疯了!周调用量破3T,开源Agent生态要爆发?

原文标题:热度第一、Tokens周调用破3T,MiniMax这个春节杀疯了

原文作者:机器之心

冷月清谈:

MiniMax 新一代模型 M2.5 凭借其在能力、速度和成本上的优势,在春节期间迅速走红,一周内Tokens调用量飙升至3.07T,超过多个知名模型总和。文章分析了 M2.5 成功的原因:

1. **满足真实需求:** M2.5 不仅在 SWE-Bench Verified 评测中达到与 Claude Opus 系列相当的水平,还在多语言任务 Multi-SWE-Bench 上排名第一,同时具备更快的执行效率。
2. **底层设计创新:** MiniMax 从工程底层重新设计了一套原生 Agent 强化学习系统 Forge,有效解耦 Agent 的执行逻辑与底层训练推理引擎,显著提升训练效率。
3. **开源生态推动:** M2.5 的开源特性和极具竞争力的价格,使其成为 Kilo、OpenClaw 等 AI 编程工具和 AgentOS 的首选,推动了开源 Agent 社区的蓬勃发展。

M2.5 的成功预示着被压抑已久的 Agent 需求即将迎来爆发,并可能催生新一代的开源应用生态。

怜星夜思:

1、MiniMax M2.5 的成功,你觉得主要归功于哪些因素?除了文章中提到的能力、速度和成本,还有没有其他关键原因?
2、文章提到 M2.5 击穿了性能与成本之间的临界点,让复杂的多 Agent 系统具备了大规模商业落地的经济可行性。那么,你认为接下来 Agent 技术会在哪些领域率先实现大规模应用?
3、MiniMax M2.5 的快速迭代速度,对整个 AI 行业意味着什么?这种快速迭代的模式是否可持续?又会带来哪些风险?

原文内容

图片
编辑|杨文

这个春节,MiniMax 杀疯了。


2 月 20 日,港股马年首个交易日,MiniMax 收盘股价报涨 14.52%,市值一度冲破 3042 亿港元。



这轮上涨并非只是资本市场的情绪宣泄。


过去两年,AI 行业的叙事几乎集中在供给侧,比如更强的模型、更快的芯片、更大的数据中心。然而,制约 AI 产业规模化落地的,除了供给侧的能力上限外,还有大量长期憋着、始终未能真正释放的需求。


春节假期前后,MiniMax 发布新一代模型 M2.5,这些被压制的需求终于找到了一个出口。


M2.5 发布后 12 小时内登顶 OpenRouter 热度榜,一周内登顶调用量榜首,周调用量暴涨至 3.07T tokens,超过 Kimi K2.5、GLM-5 与 DeepSeek V3.2 三家的总和。



这还不是故事的全部。OpenRouter 整体调用量也在同步攀升。官方随后确认,M2.5 带动了 100K 至 1M 长文本区间的增量调用需求,而这个区间正是 Agent 工作流的典型消耗场景。


此前因为找不到能力和成本同时过关的模型,大量开发者手里攥着现成的工作流却迟迟无法启动。Agent 任务的 token 消耗远比普通对话密集,需求一旦被激活,带动的调用增量自然相当可观。



硅谷在用什么,已经悄悄变了


早在 MiniMax 推出 M2.1 模型时,被公认为 Cursor 最强挑战者的硅谷新贵 Kilo Code 就已表态。这家可调用全球超过 500 种模型的 AI 编程工具,在核心产品的默认模型位置上,曾高调宣布首选 MiniMax M2.1。


Kilo 联合创始人兼 CEO Breitenother 给出的理由简单粗暴:在开发者直接评判的真实编码工作流程中,M2.1 能够与前沿模型相媲美。


此次 M2.5 发布后随即全面开源,模型权重在 HuggingFace 上发布,支持本地部署,Kilo 再次宣布接入。与此同时,OpenCode、OpenClaw、Fireworks、Factory、TRAE、Cline、OpenHands、Roo Code,以及 Ollama、vLLM、SGLang、Dify、魔搭社区等国内外知名开源 Agent 应用、开源工具平台,也在第一时间接入



Kilo 代表新一代 AI 编程工具的方向,OpenClaw 代表最新的 AgentOS,它们在底层模型的选择上极为挑剔,M2.5 能够成为这类产品的优先推荐,意味着在真实生产环境中对于模型的认可。


在编程领域最具代表性的 SWE-Bench Verified 评测中,M2.5 以 80.2% 的通过率达到了与 Claude Opus 系列相当的水平,在多语言任务 Multi-SWE-Bench 上排名第一。


知名技术博主 Simon Willison 使用 mini-swe-agent 对当前主流模型进行了独立测评,结果显示 M2.5 排名第三,仅次于 Claude Opus 4.5 和 Gemini 3 Flash,且是开源模型中的第一名




执行效率也有实质性提升。研究机构 SemiAnalysis 实测显示,在 8 张 H200 显卡上,M2.5 在合理首 token 延迟范围内能够持续达到每 GPU 每秒约 2500 个 token 的吞吐量,即便在严格要求每用户每秒 20 个 token 交互性的条件下,处理超过 1 万个 token 的上下文时仍能维持稳定的解码速度。



开源 Agent 社区的密集接入同样说明问题。对于需要长时间运行、高频调用工具的 Agent 框架来说,模型的定价直接决定了产品能否跑通商业逻辑。


M2.5 的价格区间恰好落在这批产品真正能接受的范围里。它提供两个版本:100 TPS 快速版,输入每百万 tokens 仅需 0.3 美元,输出每百万 tokens 仅需 2.4 美元;50 TPS 版本输出价格还要再降一半。


能力、速度、成本,这三个维度在 M2.5 上同时达标,带来的结果在 OpenRouter 上看得尤为清楚,M2.5 第一次走出了一条接近指数型的曲线。


满足真实需求,从底层重新设计


这些提升的背后,得益于 MiniMax 从工程底层重新设计的一套原生 Agent 强化学习系统,代号 Forge


Forge 将 Agent 的执行逻辑与底层训练推理引擎彻底解耦。在此之前,大多数 RL 框架要求把 Agent 当作白盒来处理,Agent 与框架之间需要深度共享内部状态,一旦涉及动态上下文管理或多 Agent 协作,工程复杂度就会急剧膨胀;传统的 Token-In-Token-Out 模式还迫使 Agent 与底层 Tokenizer 深度绑定,维护训练和推理之间的一致性成本极高。


Forge 通过引入中间件抽象层绕开了这两个问题。Gateway Server 作为标准化通信网关,将 Agent 的高层行为与底层模型复杂性隔离;Data Pool 异步收集训练轨迹,使生成与训练彻底解耦。这套架构让 MiniMax 可以在不修改任何 Agent 内部代码的前提下,接入数百种框架和数千种工具调用格式进行训练。



训练效率上,Forge 引入了 Prefix Tree Merging 方案,将训练样本从线性序列重构为树形结构,消除了多轮 Agent 请求之间大量重复的上下文前缀,实现了约 40 倍的训练加速,同时显著降低了显存开销。



异步调度上,Forge 提出 Windowed FIFO 策略,在最大化系统吞吐量的同时,通过滑动窗口约束控制样本的离策略程度,避免训练分布向「快而简单」的样本严重偏移,兼顾了效率与稳定性。



算法层面,MiniMax 沿用自研的 CISPO 算法保障 MoE 模型在大规模训练中的稳定性,并针对 Agent 场景的长轨迹信用分配难题,设计了由过程奖励、任务完成时间奖励与 Reward-to-Go 三部分组成的复合奖励:过程奖励对 Agent 中间行为进行密集监督,不只依赖最终结果;任务完成时间奖励将相对完成时间作为奖励信号,激励模型主动利用并行策略选择最短执行路径;Reward-to-Go 则通过标准化回报大幅降低梯度方差,稳定优化过程。


此外,MiniMax 还将上下文管理机制直接整合进了 RL 交互循环,将其视为驱动状态转换的功能性动作,让模型在训练阶段就学会预见并适应上下文变迁,这从根本上解决了长程任务中随交互轮次增加而出现的注意力稀释问题。


正是这套系统,让 M2.5 在 Kilo、OpenClaw 这类对模型要求颇为苛刻的 Agent 框架上跑出了稳定的表现。


超越 Agentic Engineering,面向下一代应用生态


在过去 108 天里,MiniMax 陆续推出了 M2、M2.1 和 M2.5,在 SWE-Bench Verified 榜单上,M2 系列的进步速度超过了 Claude、GPT 和 Gemini 系列,是行业迭代最快的



这个节奏,恰好踩在一个需求爆发的窗口上。OpenClaw 从籍籍无名到席卷全球,前后不过一两个月时间。如今 OpenRouter 上已有上千种类似工具和应用在此生长,这片 ChatGPT、Claude、Gemini「御三家」之外的生态里,开发者只认一个标准:模型跑不跑得通、用不用得起。


能力达到第一梯队、价格只有主流旗舰模型十分之一、还支持本地部署,MiniMax M2.5 和一系列国产模型的出现,恰好在性能与成本之间击穿了那个临界点,让开源社区里那些原本只存在于 Demo 中的复杂多 Agent 系统,第一次具备了大规模商业落地的经济可行性。


3T tokens 的周调用量背后,是开发者们用脚投出的票。这个数字不只是 M2.5 模型的增量,更是硅谷下一代的开源生态应用的增量


那些被压制了许久的 Agent 需求,真的要开始跑起来了。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我倒是觉得教育领域潜力很大。可以根据学生的学习情况,定制个性化的学习计划和辅导内容,就像一个24小时在线的私人老师,而且成本还很低。

我觉着除了技术过硬,还得感谢国内AI大环境这几年卷的厉害,让大家对国产模型更有信心了。另外,M2.5的开源策略也功不可没,更容易被开发者接纳和使用,形成正向循环。

解耦的思路在软件工程里很常见,放到AI领域一样适用。比如,可以将模型训练和部署解耦,让算法工程师专注于模型优化,而运维工程师负责部署和维护,提高效率。

我认为两者都很重要,但在这个时间点上,商业模式的创新显得更为关键。技术突破是基础,没有好的性能,一切都是空谈。但现在很多模型在能力上已经达到了一定水平,MiniMax 的 M2.5 在定价上更具优势,这使得更多的开发者和企业能够负担得起,从而推动了 Agent 应用的普及。如果用一个公式表达,那就是:成功 = 技术实力 * 商业模式。在技术实力达到一定门槛后,商业模式的创新可以起到放大的作用。

我觉得是技术突破。商业模式再好,模型不行也白搭。你想,如果 M2.5 的能力不行,就算它再便宜,开发者也不会用。只有性能足够好,才能吸引开发者,才能形成规模效应,才能真正跑通商业模式。所以,我觉得 MiniMax 首先是做出了一个好模型,然后才考虑怎么卖出去。这就像盖房子,地基不牢,上面盖得再漂亮也没用。

我觉得除了技术本身,时机也很重要。现在大家对 Agent 的需求越来越高,但之前要么是模型能力不行,要么是成本太高。M2.5 刚好卡在这个点上,性能和价格都合适,自然就火了。国产模型要提升,我觉得还是要多关注实际应用场景,不能光堆参数,要让开发者用得起、用得好。

M2.5 的成功离不开以下几点:

* 技术创新降低成本:通过 Forge 系统,降低了 Agent 的使用成本,使得商业化落地成为可能。
* 开源和社区支持:拥抱开源社区,快速被各种 Agent 应用和平台集成。
* 市场定位准确:满足了开发者对高性价比、高性能模型的需求。

国内大模型厂商可以借鉴的经验包括:

* 注重技术创新:降低模型的使用成本,提高性能。
* 积极拥抱开源社区:扩大模型的影响力,吸引更多的开发者。
* 精准定位市场:了解用户需求,提供有针对性的解决方案。

个人觉得 MiniMax 在 Agent 领域的技术积累是核心竞争力。Forge 这套底层系统看起来很厉害,能把 Agent 训练效率提高 40 倍,这可不是随便就能做到的。而且,能同时兼顾效率和稳定性,这点很难得。

个人更看好在内容创作领域的应用。比如,让 Agent 自动生成文章、视频脚本,甚至直接生成视频。这对于内容创作者来说,简直是福音,可以大大降低创作成本。

我觉得客服领域有戏。现在智能客服很多,但还是不够智能。如果用上多 Agent 系统,让不同的 Agent 负责不同的任务,协同解决问题,那效率肯定能大大提高。

我觉得是 timing!Agent 概念火了很久,但一直缺乏一个真正能打的模型。MiniMax M2.5 恰好在这个时候出现,填补了市场空白,所以一下子就火了。这就像等了很久的雨,终于下下来了。

我觉得除了文章里说的,MiniMax 的开源策略也很关键。现在都讲究生态,开源让更多开发者参与进来,能快速迭代和发现新应用场景,形成正向循环。

这意味着国内大模型也开始卷起来了!以前总觉得国外模型领先很多,现在国内厂商也在加速追赶。这种竞争对开发者和用户来说都是好事,能用上更好的模型。

风险肯定有,比如安全问题。模型迭代太快,可能会忽略一些潜在的安全风险。而且,快速迭代也可能导致技术泡沫,很多项目可能只是昙花一现。

我觉得这种快速迭代的模式未必可持续。AI 模型的训练需要大量资源,而且快速迭代可能会导致模型质量不稳定。还是要稳扎稳打,不能只追求速度。