小米发布MiMo-V2 Pro大模型:万亿参数+1M上下文,专为Agent而生

小米发布MiMo-V2 Pro大模型,拥有万亿参数和1M上下文,专为Agent设计,性能优异,API已开放。

原文标题:神秘霸榜模型现真身:小米MiMo-V2 Pro,国内首个万亿参数+1M上下文,为Agent而生!

原文作者:机器之心

冷月清谈:

小米发布新一代面向Agent的大模型家族MiMo-V2,包含旗舰基座模型MiMo-V2-Pro、全模态模型MiMo-V2-Omni和语音大模型MiMo-V2-TTS。MiMo-V2-Pro在OpenRouter盲测中表现优异,综合智能排名位列全球第九,国内第三,尤其在长文本处理和智能体调用稳定性方面表现突出。该模型专为OpenClaw等AI智能体平台设计,在PinchBench榜单上名列前茅。MiMo-V2-Pro拥有超过万亿参数,激活参数42B,采用混合注意力机制和MTP层,提升生成速度。小米还开放了MiMo-V2-Pro的API,并联合多家Agent开发框架团队提供限时免费支持。MiMo模型已在小米多个核心业务和生态伙伴中上线,如小米版「龙虾」MiClaw、金山WPS灵犀和小米浏览器。

怜星夜思:

1、小米的MiMo-V2-Pro大模型在哪些实际应用场景中能够发挥更大的价值?除了文章中提到的智能体应用,还有哪些潜在的应用方向?
2、文章提到MiMo-V2-Pro的API定价是Claude Opus 4.6的五分之一,在实际使用中,开发者应该如何权衡成本和性能,选择最适合自己的大模型?
3、小米将MiMo-V2系列大模型定位为“面向Agent”,你认为Agent在未来的AI发展中会扮演什么样的角色?它会如何改变我们的生活和工作方式?

原文内容

Image
编辑|泽南、Panda

霸榜 OpenRouter 的神秘大模型,真面目终于曝光了 —— 来自小米。


过去一周里,两款代号为 Hunter Alpha 和 Healer Alpha 的神秘大模型空降知名大模型基础设施平台 OpenRouter。它们以 API 的形式,直接与全球最顶尖的模型展开了同场「盲测」竞技。


战绩可谓优异:其中 Hunter Alpha 拿下了趋势榜第一、周榜第三,现在也在日榜上保持领先。



这几天整个开发者社区都在猜测 Hunter Alpha 来自哪家,有说是 DeepSeek V4,有说是 Grok,直到昨天,面纱正式揭开:这正是小米全新一代面向 Agent(智能体)的大模型家族。


在今天官宣新模型时,雷军还表示,小米会持续加大在 AI 领域上的投资,今年投入将超过 160 亿元。



此次官宣的新模型有三个版本:


  • MiMo-V2-Pro Preview(即 Hunter Alpha):面向 Agent 时代的旗舰基座模型,参数量高达 1021B,激活参数量 42B,主攻硬核复杂任务。

  • MiMo-V2-Omni(即 Healer Alpha):全模态模型,专为快速推理和低延迟场景打造。

  • MiMo-V2-TTS:首款「说唱兼备」的超拟人语音大模型。由于 OpenRouter 平台限制,未能参与此前的盲测。


其中,旗舰模型 MiMo-V2-Pro 在长文本、智能体调用稳定性等方面性能优异。随着模型的正式亮相,小米也提供了更多的跑分数据,在权威大模型综合智能排行榜 Artificial Analysis 上,MiMo-V2-Pro 位列全球第九,国内第三。


可以说是挤进了国内大模型的第一梯队。



更为值得关注的是,这些新一代的模型是专为「龙虾」(OpenClaw)等 AI 智能体平台设计的。在 OpenClaw 标准评测榜单 PinchBench 上,MiMo-V2-Pro 效果处于全球顶尖水平。


来自开发者社区的真实反馈也印证了这一点。网友们表示,在很多复杂的 Agent 编排场景中,Hunter Alpha 的实际落地效果接近于 Claude 4.6。




有人已经表示,目前想要构建全端自动开发的工作流,只有 GPT5.4、Claude opus 4.6 和 Hunter alpha 是可以信赖的,它们的生成的代码效果很好。


MiMo-V2-Pro 场景实测

写代码、做研报、找热点


小米宣称 MiMo-V2-Pro 的能力优秀,特别是用在 OpenClaw 上的体验不错,但实际体验如何?在模型还未正式发布时,我们提前进行了一番研究。


就试试它在智能体工作流上的能力:



首先,既然说这个模型支持超长的上下文,我们就让它来做一个深度研究。


可以看到,hunter-alpha 明白这是一个需要多步骤执行的任务,并根据当前任务的需求自动选择了所要使用的工具,而当检测到所选工具不可用时,它也会聪明地直接寻找替代方案并完成任务。



不论是从格式、章节和内容看,这报告的内容是够详尽的。


图片


我们再抛出一个具有时效性的问题:让 OpenClaw 观察马斯克(Elon Musk)最近 48 小时在社交平台上说的话与回复内容,并尝试分析一下利好哪些股票概念。


图片


我们知道,马斯克每天发话无数,参与互动的内容从 AI 领域到航天,有时候还会直播打游戏,hunter-alpha 正确地剔除了不少无用信息,给了我们寻找热点的参考。


有意思的是,从上面的长截图可以看出,当 MiMo-V2-Pro Preview 第一次尝试完成该任务时,由于 API 超时,它并未第一时间获得一手数据,但它却机灵地通过其它信源进行了信息补充。之后它修改了方法,进行了更正确的分析,并得到了相当有用的总结:


  • 今天马斯克以短回复为主("True"、"Nice"、"😂"),没有长篇宣布或新产品发布

  • 矿业机器人和对 Autopilot 辩护是唯二有实质内容的信号

  • 结合上周 Optimus 3 + xAI + X Money 等信息,机器人和 AI 算力依然是主线


对了,今天是「疯狂星期四」,群里洋溢着整活的气氛,我们要求 OpenClaw 成为一个玩梗机器人,用 Python 帮我们写一个完整的自动化脚本。要求:


  • 脚本内置一个包含 5 种不同风格(悬疑、言情、科幻、职场、废话文学)的「肯德基疯狂星期四 V 我 50」文案生成器。

  • 每次运行时随机抽取一种风格,并自动替换掉文案里的日期和当天的天气(需调用免费的天气 API)。

  • 将所得结果直接发给我。

  • 提供完整的 requirements.txt 和部署在 Linux 上的 crontab 定时任务指令(设定为每周四上午 11:30 执行)。


MiMo-V2-Pro 有能力完成这个既需要技术也需要机智的任务吗?结果是这样:



试运行一次看看效果:



另外,很多网友说小米的模型有不错的代码能力,我们要求 MiMo-V2-Pro 来生成一个 HTML 页面,包含以下内容:healer-alpha 大模型的介绍、healer-alpha 和各种其他模型的参数对比、当前社区上人们对于 healer-alpha 的评价。


大模型生成了一个排版清晰美观,内容充实的页面。


图片


MiMo-V2-Pro 向我们展示了一个极其聪明的「龙虾 AI 大脑」,那么想要让智能体真正接管现实世界的工作流,它们还需要敏锐的视觉和听觉。在这方面小米还有另外两张牌。


多模态 Agent 能力

接管真实世界,听刘德华叫早


我们进而测试了一下另外两个模型 MiMo-V2-Omni 与 MiMo-V2-TTS。


MiMo-V2-Omni 作为一个全模态的模型,具备一定的 GUI Agent 能力。据介绍,它支持文本、图像、音频、视频(最长一小时)的输入,在 OpenClaw 里可以处理网页、摄像头截图、音频分析、文档中的图片等多模态任务。


我们尝试让它帮助我们发条抖音:




MiMo-V2-Omni 驱动的智能体当然也能完成一些与现实世界有关的任务。如果我们 30 人的团建需要购买吃的喝的用的,交给 OpenClaw 它可以一步到位地搞定:



语音合成大模型 MiMo-V2-TTS 支持具有拟人感的发音能力,支持多个方言、音色的切换,也具备音色克隆的能力。我们让它「用刘德华的声音来叫我起床」:



看起来效果不错。


有了 MiMo-V2-Omni 与 MiMo-V2-TTS,小米可以说拥有了现阶段可以同时理解音视频的国内最强 Agentic 模型。对于开发者来说,这些工具能够处理观察浏览器多窗口、复杂内容的联合理解与生成等任务,在实时交互与可视化输出能力上提供了保证。


另一方面,多模态的大模型也为小米的智能生态提供了想象空间:它未来或许可以关联机器人 VLA 模型实现联合控制,操作智能家具,或是融入下一代智能眼镜,提供识别等能力。


MiMo-V2-Pro 凭什么叫板闭源模型巨头?


从 OpenRouter 上霸榜的成绩,社区的热烈讨论,再到 Benchmark 分数,我们看到了 MiMo-V2-Pro 等模型的能力与实用性,它们正在推动 AI 智能体从「对话框里的聊天伴侣」进化为现实世界里的「AI 打工人」。但有关小米大模型用到的技术,我们一直以来知之甚少。


本次在最受关注的 MiMo-V2-Pro 上,小米介绍了一些技术细节。


MiMo-V2-Pro 拥有超过 1 万亿的超大参数量,激活参数控制在 42B,相比前代 MiMo-V2-Flash 扩容约 3 倍。团队进一步优化了其创新的混合注意力机制(Hybrid Attention),将 SWA(滑动窗口注意力)与 GA(全局注意力)的混合比例提升至 7:1,并搭配轻量级的 MTP (Multi Token Prediction) 层实现了高效的生成速度。


在此基础上,MiMo-V2-Pro 的能力加点全都点在了「真实应用」上。为了成为合格的 Agent 大脑,MiMo-V2-Pro 针对 OpenClaw 等通用智能体框架的 Scaffold(脚手架)进行了深度的 SFT(监督微调)与 RL(强化学习)


在 OpenClaw 的标准评测榜单 PinchBench 上,MiMo-V2-Pro 排行跻身前列。它能够在完全没有人工干预的情况下,自主完成复杂的工作流编排、长周期的任务规划,实现高精度的外部工具调用。


在考验模型逻辑能力的编码领域,MiMo-V2-Pro 能够参与严肃的代码工程构建。


在小米内部的深度评测及社区的真实反馈中,MiMo-V2-Pro 体感已接近目前的行业天花板 Claude Opus 4.6,它给出的代码风格更加优雅,拥有出色的系统设计与任务规划能力。


MiMo-V2-Pro 已经展示出了完整的端到端全栈能力。在 OpenClaw 里只需输入一段 Prompt,模型就能一步生成一个充满「90 年代复古杂志风」的前端网页 —— 从衬线字体的排版、溢出的视觉错觉,到棕褐色滤镜、翻书过渡动画,甚至还包含 ISSN 码版权页,完美兼顾了工程可用性与视觉审美。


拥有百万上下文能力的 MiMo-V2-Pro API 现已全面开放。在接近 Claude Opus 4.6 能力的同时,API 定价仅为其五分之一。小米采取了分段计价的方式:


  • 256K 上下文内:输入 $1 / 1M tokens,输出 $3 / 1M tokens

  • 1M 上下文内:输入 $2 / 1M tokens,输出 $6 / 1M tokens


为了加速 Agent 生态的繁荣,小米还联合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 等五大主流 Agent 开发框架团队,直接向全球开发者提供为期一周的限时免费接口支持


不只是「跑分机器」

已全面杀入真实生态


目前,MiMo-V2-Pro 作为基础设施,已在小米的多个核心业务和生态伙伴中同步上线。


作为首个基于 MiMo 模型构建的手机端 AI 智能体产品,小米版「龙虾」MiClaw 不仅具备了深入系统的执行能力,还与小米的人车家全生态实现了深度集成。推动了 AI 能力从「对话」迈向「系统级执行」的实质性演进。


在生产力场景,MiMo 的底层推理引擎已与金山办公达成框架级集成。现在 WPS 灵犀可以直接向搭载了 MiMo-V2-Pro 的灵犀 Claw 提问或布置复杂任务。此外,小米浏览器也已全面接入该模型,大幅提升 AI 搜索的信息获取效率。


小米官方还上线了 AI Studio 体验页面(aistudio.xiaomimimo.com)。在这里你不仅可以免费解锁 MiMo-V2-Pro 完整体验,其中的 MiMo Claw 模块还打通了金山 WebOffice 生态,原生支持 Word、Excel、PPT、PDF 格式,无缝覆盖了超 95% 的日常文档类型。



下一步,小米大模型 Core 团队还计划以星期为单位持续迭代 MiMo-V2 系列大模型,面向真实场景提供更完善的复杂推理与长周期任务规划能力,向真正的通用智能迈进。



© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得多模态最有潜力的是在工业领域,比如结合视觉和听觉,可以做故障诊断,或者远程协助。想象一下,一个老师傅通过眼镜看到现场画面,听到机器的异响,就能指导徒弟维修,很酷炫啊!

免费API相当于提供了一个高质量的“基础设施”,开发者可以基于此快速构建各种Agent应用,而不用担心算力成本。这对于初创公司和个人开发者来说是巨大的利好。

手机上的AI修图功能已经很强大了,如果能接入大模型,就可以实现更精细化的图像处理,比如一键修复老照片、智能抠图换背景,甚至可以根据我的描述生成风格独特的艺术照片。期待小米或者其他厂商能在这方面有所突破!

最大的改变就是交互方式的变革!以后我们可能不再需要敲键盘、点鼠标,直接通过语音、手势、甚至眼神就能控制设备、完成任务。比如,对着智能家居说一句“我有点冷”,它就能自动调高温度;对着汽车说一句“导航到附近的餐厅”,它就能立刻规划路线。

多模态Agent在医疗领域的应用前景非常广阔!医生可以通过语音控制查看患者的影像资料,AI可以通过分析患者的面部表情和语音语调来判断其精神状态,甚至可以通过分析患者的视频来诊断疾病。这不仅能提高诊断效率,还能提升诊断的准确性。

多模态Agent绝对是未来的趋势!人类获取信息的方式本来就是多样的,视觉、听觉、触觉等等。Agent如果只能理解文本,那就太局限了。多模态Agent可以更好地理解我们的意图,更自然地与我们交互,从而提供更智能、更个性化的服务。

价格优势当然重要,尤其是在初期推广阶段。它可以吸引更多开发者和企业尝试使用,从而扩大用户群体和市场份额。

我认为性价比是关键!尤其是在Agent应用场景下,成本控制很重要。如果MiMo-V2 Pro能够在大部分场景下达到Claude Opus 4.6的 80%-90% 性能,同时价格只有五分之一,那肯定会吸引大量开发者。长期来看,开源/半开源模型会逐渐蚕食闭源模型的市场份额。

这个问题要辩证地看。初期可能会有一些价格敏感型用户转向小米的MiMo-V2 Pro,但高端用户可能还是会选择闭源模型。同时,闭源模型也在不断进化,降价也是有可能的。另外,稳定性和长期支持也很重要,这方面闭源模型更有优势。

我觉得除了算力,还有模型的大小也是一个挑战。如何在保证性能的前提下,尽可能地压缩模型的大小,让它能够在手机等设备上流畅运行,也是一个关键。小米可以通过模型压缩、量化等技术来解决这个问题。此外,软件生态也很重要,需要吸引更多的开发者来为小米的AI平台开发应用。

我认为多模态agent在教育和医疗领域会带来革命性的变化。想象一下,一个AI老师可以分析学生的作业和表情,从而个性化教学内容。或者一个AI医生可以结合患者的病历、影像资料和语音描述,进行更准确的诊断。当然,也需要注意数据隐私和安全问题。

端侧应用的最大挑战肯定是算力!如何在有限的算力下实现高性能的AI推理,这是一个需要解决的问题。另外,数据隐私也很重要,需要在本地进行安全可靠的推理。小米需要在算法优化、硬件加速和隐私保护方面持续投入,才能保持领先。

PinchBench 主要评测的是 Agent 在真实场景下的任务完成能力,包括工作流编排、任务规划和工具调用等。它更侧重于 Agent 的实用性和解决问题的能力,而不仅仅是语言生成或知识问答。至于权威性,PinchBench 作为 OpenClaw 推出的榜单,在 Agent 开发领域具有一定的参考价值,但应该结合其他榜单和实际应用效果进行综合评估。

我觉得在办公软件里的潜力最大!像WPS灵犀接入MiMo-V2 Pro,以后写文档、做PPT简直可以一键生成,效率提升N倍。想象一下,开会前只需要给AI布置个任务,会议纪要、行动方案就都出来了,简直是打工人的福音!

参数量和上下文长度肯定不是噱头,但实际提升多少得看具体应用场景。万亿参数和1M上下文,理论上是可以处理更复杂的任务和更长的依赖关系,Agent的决策空间和记忆力都会增强。但是,如果Agent的任务本身不需要那么大的模型和上下文,那提升可能就不明显了。而且,参数量越大,推理成本也越高,需要权衡一下。

作为开发者,我肯定会优先考虑性价比。如果MiMo-V2-Pro能达到Claude Opus 4.6 80%的性能,但价格只有五分之一,那我会毫不犹豫地选择MiMo-V2-Pro。毕竟,对于大多数应用来说,并不是要求模型达到100%的完美,而是要在一个合理的成本范围内,提供足够好的用户体验。

当然,如果你的应用对性能要求极高,比如需要处理一些非常复杂的自然语言处理任务,或者需要提供极低延迟的响应,那可能还是需要选择性能更强的模型,即使价格更高。

我觉得Agent会彻底改变我们的工作方式。它可以帮助我们自动化各种流程,提高工作效率。比如,它可以自动分析市场数据,生成销售报告,或者自动回复客户邮件,解决常见问题。

在未来,很多工作可能会被Agent取代,但同时也会创造出新的工作机会。我们需要不断学习新的技能,适应新的工作环境,才能在未来的社会中立足。

另外,Agent的普及也会带来一些伦理问题,比如如何定义Agent的责任,如何保证Agent的公平性等等。我们需要认真思考这些问题,并制定相应的规范。

我比较关注Agent在教育领域的应用。它可以根据每个学生的学习情况,提供个性化的辅导和支持。它可以帮助学生更好地理解知识,提高学习效率。

在未来,Agent可以成为每个学生的专属 tutor,帮助他们更好地发展自己的才能。它可以让教育更加公平,让每个学生都有机会接受最好的教育。

当然,Agent在教育领域的应用也需要谨慎。我们需要保证Agent的教学质量,避免Agent对学生产生不良影响。此外,还需要保护学生的隐私,避免Agent收集过多的个人信息。

我觉得MiMo-V2-Pro这种超大参数模型在需要深度理解和长期规划的场景下肯定更有优势。比如,复杂的金融分析、药物研发、或者城市规划这些领域,它结合领域知识,应该能提供一些有价值的洞见。

另外,我觉得在教育领域也有潜力,可以根据每个学生的学习情况定制个性化的教学方案,或者在科研领域,帮助研究人员更快地分析海量数据,找到新的突破口。