小米7B模型MiMo-VL高考数学斩获139分,比肩Qwen3-235B、OpenAI o3

小米7B模型MiMo-VL高考数学139分,媲美Qwen3-235B和OpenAI o3,技术报告和模型权重已开源。

原文标题:高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

原文作者:机器之心

冷月清谈:

小米开源的7B参数模型MiMo-VL在2025年数学新课标I卷中取得139分,与Qwen3-235B持平,仅比OpenAI o3低1分,显著优于同参数多模态模型Qwen2.5-VL-7B。在客观题部分表现出色,尤其多选题和填空题获得满分。MiMo-VL得益于高质量预训练数据和创新的混合在线强化学习算法(MORL),在多个数学竞赛中超越更大参数模型,并在内部评估中超越GPT-4o。小米已开源MiMo-VL的技术报告、模型权重和评估框架。

怜星夜思:

1、MiMo-VL在多模态推理任务中表现突出,超越了许多更大参数的模型,那除了算数解题,大家觉得这种能力还能应用在哪些实际场景中?
2、文章提到MiMo-VL使用了混合在线强化学习算法(MORL),这种算法相比传统的强化学习算法有什么优势?
3、MiMo-VL能在数学测试中取得好成绩,是否意味着它具备了真正的理解和推理能力,还是仅仅掌握了某种“解题技巧”?

原文内容

机器之心报道

机器之心编辑部


上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。


中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。


其实,向今年数学卷发起挑战的大模型还有其他家,比如 Xiaomi MiMo-VL,一个只有 7B 参数的小模型


该模型同样挑战了 2025 年数学新课标 I 卷,结果显示,总分 139 分,与 Qwen3-235B 分数相同,并只比 OpenAI o3 低一分


并且,相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B,MiMo-VL 整整高出了 56 分


MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测,其余均是输入文本 latex 进行的评测;不做 System Prompt 引导,不开启联网搜索,直接输出结果。


我们接下来一一看 14 道客观题(总计 73 分)、5 道解答题(总计 77 分)的具体答题结果。


其中,MiMo-VL 在单选题中得到 35 分(总分 40)。



MiMo-VL 在多选题中得到满分(18 分)



MiMo-VL 在填空题中同样得到满分(15 分)



MiMo-VL 在解答题中得到了 71 分,位列第 5,超越了 hunyuan-t1-latest、文心 X1 Turbo。



查看详细测评截图以及答题情况,请移步:https://rwgi1pvz1gm.feishu.cn/docx/Z8dNdScFdopPwnxMJxfcnVpnnwh


比肩 Qwen3-235B、o3

7B 小模型如何做到?


今年 4 月 30 日,小米宣布开源了首个专注于推理的大模型「Xiaomi MiMo」,推理能力全面提升。


在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。


一个月后,该模型经过持续的 RL 训练,推理与通用能力再次大幅提升。在多个数学代码竞赛中,新版本模型 MiMo-7B-RL-0530 已经与最强开源推理模型 DeepSeek R1 和 OpenAI 闭源推理模型 o1、o3-mini 相差无几。



同一时间,MiMo-VL 作为 MiMo-7B 的后续版本推出,不仅在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,还在 GUI Grounding 任务上比肩专用模型。



MiMo-VL 保持了 MiMo-7B 的纯文本推理能力,并在多模态推理任务上,仅用 7B 参数,在 OlympiadBench 以及 MathVision、MathVerse 等多个数学竞赛中大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。



在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 同样超越了 GPT-4o,成为开源模型第一。


视觉理解能力展示。


从技术层面来看,MiMo-VL-7B 全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning,MORL)


一方面收集、清洗、合成了高质量的预训练多模态数据,涵盖图片 - 文本对、视频 - 文本对、GUI 操作序列等数据类型,总计 2.4T tokens。通过分阶段调整不同类型数据的比例,强化长程多模态推理的能力。


另一方面,混合文本推理、多模态感知 + 推理、RLHF 等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型推理、感知性能和用户体验。


框架概览。


目前,MiMo-VL-7B 的技术报告、模型权重和评估框架均已开源。



  • 已开源的 RL 前后两个模型:https://huggingface.co/XiaomiMiMo

  • 技术报告地址:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

别忘了游戏领域!想象一下,游戏中NPC能根据你提供的图片(比如捏脸数据)和文字描述(“要一个冷酷的战士”)生成一个符合你要求的角色,那代入感得多强!

楼上说的场景都挺靠谱的,我再补充一个:盲人辅助。如果能把这个模型放到盲人眼镜里,摄像头拍到的画面,模型理解之后用语音告诉盲人,那也能帮助他们更好的理解周围的世界。

我更倾向于认为这是一种“涌现”现象。虽然模型本身并没有被明确地设计成“理解数学”,但当它学习了足够多的数据后,就涌现出了一些类似于理解和推理的能力。就像一群蚂蚁,单个蚂蚁很笨,但当它们组成一个群体时,就能完成非常复杂的任务。

这是一个非常深刻的问题,也涉及到我们对AI“智能”的理解。我认为,目前的大模型,包括MiMo-VL,更多的是掌握了某种“模式识别”和“知识检索”的能力,而非真正的理解。它们能够通过分析大量的训练数据,找到题目和答案之间的关联,并模仿这种关联进行解题。但如果遇到完全超出其训练范围的问题,或者需要创造性思维的问题,它们可能就束手无策了。当然,随着技术的不断发展,AI或许有一天能够具备真正的理解和推理能力,但这仍然是一个遥远的未来。

这问题问到点子上了!MORL 的优势在于它能够更稳定、更高效地训练模型,尤其是在多模态数据这种复杂场景下。简单来说,传统的RL算法容易出现训练不稳定、奖励稀疏等问题,而MORL通过混合不同的反馈信号,并采取在线学习的方式,能够更好地平衡探索和利用,从而加速模型训练,提升模型性能。当然,具体的技术细节非常复杂,涉及到很多数学公式和算法优化。

赞同楼上的观点!就像一个学霸,刷了很多题,掌握了很多解题技巧,考试成绩自然就好。但如果让他去解决一个全新的、没有见过的数学难题,可能也会遇到困难。关键在于,AI缺乏人类的直觉和创造力。

从我的理解来说,MORL就像是一个“调和剂”,它能把不同的“营养”(文本推理、多模态感知等)混合在一起,让模型吸收得更均衡。传统的强化学习可能更偏向于某一种“营养”,导致模型发展不均衡。

这个问题很有意思!我觉得MiMo-VL这种多模态推理能力在实际场景中的应用潜力巨大。简单举几个例子:

1. 智能客服:能够理解用户上传的图片或视频,结合文字描述,更准确地理解用户的问题并提供解决方案。
2. 辅助诊断:医生可以上传医学影像,模型结合病历信息进行初步诊断,提高诊断效率。
3. 工业质检:通过图像识别产品缺陷,结合产品规格描述,判断产品是否合格。
4. 教育领域:例如,在美术教学中,模型可以分析学生的作品,并结合文字描述给出更细致的反馈。

总之,只要是需要结合视觉信息和文字信息进行推理的场景,MiMo-VL都有发挥的空间。

楼上两位说得都太学术了,我来个接地气的解释。MORL就好比是给AI请了个私教,这个私教不仅懂得多(混合多模态数据),而且还随时盯着AI学习,及时纠正错误(在线强化学习),这样AI自然进步更快啦!