高考数学大模型测评:Gemini 2.5 Pro 夺冠,多模态模型图像识别仍是短板

七款大模型挑战高考数学卷,Gemini 2.5 Pro 夺冠,但在图像识别上表现不佳,反映AI在数理逻辑和图文理解上仍有进步空间。

原文标题:高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

原文作者:机器之心

冷月清谈:

本文对七款主流大模型(包括 Gemini 2.5 Pro、Doubao、DeepSeek R1、Qwen3、hunyuan-t1-latest、文心 X1 Turbo 和 o3)进行了 2025 年数学新课标 I 卷的测试,包含客观题和解答题。结果显示,Gemini 2.5 Pro 以总分 145 分位列第一,Doubao 和 DeepSeek R1 并列第二。客观题部分各家模型差距不大,但解答题成为了主要的失分点,反映出大模型在复杂推理和严谨论证方面仍有提升空间。此外,多模态大模型在图像识别题上表现不佳,表明AI在图文结合理解方面存在短板。文章详细展示了各家模型在不同题型上的表现和失分原因,为大模型在数学领域的应用提供了参考。

怜星夜思:

1、这次大模型的高考数学测试,虽然Gemini 2.5 Pro 夺冠,但感觉多模态模型在图像题上的表现还是不够理想。大家觉得这是因为什么?是训练数据的问题,还是模型结构本身的问题?
2、这次测试中,解答题成了大模型失分的重灾区,除了 Gemini 之外,其他模型都有不同程度的扣分。这意味着啥?大模型在哪些方面还需要加强?
3、看到报道里说,有模型在解答题中出现了解答正确但多余假设求值、答案没化简、未证明极值等问题。这些问题反映出大模型在数学应用上存在哪些局限性?

原文内容

机器之心报道

编辑:杨文、+0

AI挑战全套高考数学题来了!


高考数学一结束,我们连夜使用六款大模型产品,按照一般用户截图提问的方式,挑战了 14 道最新高考客观题,不过有网友质疑测评过程不够严谨,所以这次我们加上解答题,重新测一遍。


本次参加挑战的选手分别是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3,并且新增网友们非常期待的 Gemini 2.5 pro。上一次我们使用网页端测试,这次除 o3 外,其他模型全部调用 API。


在考题选择上,我们仍然采用 2025 年数学新课标 Ⅰ 卷,包含 14 道客观题,总计 73 分;5 道解答题,总计 77 分。其中第 6 题由于涉及到图片,我们就单独摘出来,后面通过上传题目截图的形式针对多模态大模型进行评测。其他文本题目全部转成 latex 格式,分别投喂给大模型,还是老规矩,不做 System Prompt 引导,不开启联网搜索,直接输出结果。


(注:第 17 题虽然也涉及到图片,但文字表述足够清晰,不影响答题,因此也以 latex 格式测评。)


客观题计分方法按照以往高考判分原则:


  • 单选题每道 5 分,选项正确计分,错误不得分;

  • 多选题每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;

  • 填空题每道 5 分,填空正确计分,错误不得分。


至于解答题,由于现在还未出具体的评分细则,所以我们请数学专业的朋友进行评判,主要还是看大模型的最终答案以及解题步骤中是否有严重失误点。


7 家大模型考试成绩如下图所示。



从客观题来看,各家大模型几乎拉不开差距,最大分差也只有 3 分,第 6 题图像题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3 客观题成绩垫底,但有网友表示,这可能是由于某些原因导致后台自动切换成其他模型,而这一次我们选用的是未「降智」的 o3,选择题和填空题成绩仍是排在最后,当然,65 分的成绩相比「降智」版确实有很大提升。


解答题是大模型失分的「重灾区」。除了 Gemini 2.5 Pro 拿到全部的分数外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丢了一分;o3 则失了 2 分,最终得到 75 分。相较而言,hunyuan-t1-latest 和文心 X1 Turbo 发挥不佳,分别拿到 68 分和 66 分。


从总分上来看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。


(查看各大模型的测评截图以及解答题答题情况,请移步:https://jiqizhixin.feishu.cn/docx/PR0PdzYaWoU92QxiJQqc2oe7n2g


解答题:大模型失分「重灾区」


我们先来看看解答题的情况。



第 15 题和第 17 题,一道考查概率问题,一道涉及立体几何知识,7 家大模型均拿到满分。


第 16 题是一道数列综合题,满分 15 分,只要证明完整、计算过程完整、结果正确就能拿到全部的分数。大模型整体表现不错,只有 Qwen3 解答正确,但最终答案里面增加了多余的假设求值,扣了一分。


[ 上下滑动查看更多 ]


第 18 题这道椭圆方程与几何就难倒了不少大模型,仅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到满分 17 分,其他模型各有各的扣分点。Qwen3 前面回答得都不错,过程也很完整,但偏偏最后一小问|PQ|最大值取约等于 9 的步骤多余,导致结果偏差,扣了一分。


[ 上下滑动查看更多 ]


o3 则是第(3)问答案没化简丢了一分。



文心 X1 在第 2 问 (2) 正确算出 P 点轨迹,但未证明极值,直接按最远点计算造成结果错误,扣 6 分。


[ 上下滑动查看更多 ]


hunyuan-t1-latest 前两问中回答正确,到了第 3 问完成 P 点轨迹之后就全错了,一下子丢了 5 分。


[ 上下滑动查看更多 ]


对于最后一道压轴题,Gemini2.5 pro 是唯一全对的大模型。Doubao 只说明了震荡项的振幅大于 0,但是也有可能震荡项的相位是反的,那样的话最大值反而有可能更小,证明过程不够严谨,扣一分。


[ 上下滑动查看更多 ]


DeepSeek R1 在第(3)问中分情况讨论,得出了两类解,但对第一类解未做后续说明,扣了一分。


[ 上下滑动查看更多 ]


o3 第(2)问思路正确,但因为开闭区间差别,「完全重合」说法错误,扣 1 分。


[ 上下滑动查看更多 ]


hunyuan-t1-latest 在第(2)问上思路可行但证明过程模糊,扣 2 分,到了第(3)问没有判断 phi 取值,又扣了 2 分。


[ 上下滑动查看更多 ]


文心 X1 和 Qwen3 也都是在第 2 问和第 3 问上失了分,第 2 问证明模糊扣 2 分,第 3 问则是未具体说明 phi 值扣 2 分,而且文心 X1 比大小还发生错误,又扣了 1 分。


[ 上下滑动查看更多 ]


客观题:一道图像题难倒几家多模态大模型


在不考虑识图题(第6题)的情况下,客观题大模型总体表现都不错,Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1 、文心 X1 Turbo 和 hunyuan-t1-latest 均取得了 68 分的高分,只有 o3 在多选题上少选了一项丢了分。



其中,o3 在第 9 题计算过程中,忽视了「正三棱柱」这一关键条件。它在建立坐标系时,分别用 (x₀, y₀, 0) 表示 A 点坐标,用 (c, 0, 0) 表示 C 点坐标,但没有考虑到:正三棱柱的底面是正三角形,这意味着正三角形的边长 c 与 x₀、y₀之间存在关系:c=2x₀=2y₀/√3。导致对 B 选项的判断出现错误。


[ 上下滑动查看更多 ]


接下来看看这道图片题。



遗憾的是,此次测评的多模态大模型都在这道识图题上表现不佳。虽然 hunyuan-t1-latest 不是多模态,但我们又测试了 hunyuan-t1-vision ,也在这道题上败下阵来。



相比之下,Doubao 和 o3 至少正确识别了坐标位置,只是误判了视风风速方向,而 Gemini 连基本坐标都未能正确识别。



总的来说,这次测评结果显示,大模型在数学推理能力上有不小的进步,但仍有较大的提升空间。比如不少模型在解答题上丢分,这反映出大模型在复杂推理、严谨论证和多步骤计算方面还需加强。


此外,所有参测的多模态大模型在第 6 题的图像识别上都出现了问题,这也暴露出当前 AI 在图文结合理解方面的短板。


最后,紧张的高考已经结束,祝福所有考生都能取得理想的成绩,有着灿烂的未来!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我认为这是大模型“知识表示”的问题。它可能知道极值的概念,但不知道什么时候需要证明极值;它可能知道答案要化简,但不知道化简到什么程度才算“最简”。这说明大模型对数学知识的理解还比较浅层,无法灵活应用。

有没有可能…单纯就是炼丹的算力不够?数据和模型结构都到位了,但是算力不足导致训练不充分,最终效果也不好。

我倒是觉得,可以考虑让大模型学习一下人类的“考试技巧”。比如,在时间有限的情况下,如何快速找到解题思路,如何避免低级错误等等。毕竟,考试不仅仅是知识的考察,也是能力的考察。

有没有可能,这些“错误”其实是人类在判卷过程中主观造成的?对人类来说显而易见的步骤,模型没写出来就被扣分了。如果换一个更“懂”AI 的老师来判卷,结果可能就不一样了。

楼上说的有道理!我补充一点,可能也和任务设置有关。高考数学的图像题,往往需要结合图形进行推理和计算,这不仅仅是识别图像的问题,还需要理解图像背后的数学含义。如果模型只是简单地识别图像,而不能将其与数学知识联系起来,自然很难做对题。

我觉得都有可能。训练数据方面,可能高质量的、带详细标注的数学图像数据比较难获取,导致模型对图像的理解不够深入。模型结构方面,可能现在的多模态模型在融合文本和图像信息时,还存在一些瓶颈,无法充分利用图像中的空间关系和几何信息。

我觉得更深层的原因是,大模型缺乏真正的“理解”。它可能记住了很多公式和解题方法,但并不真正理解这些公式和方法背后的数学原理。所以,一旦遇到稍微复杂一点的问题,就容易出错。

这反映出大模型还缺乏人类的“常识”和“经验”。在数学解题中,很多时候需要根据具体情况进行判断和选择,比如,哪些步骤是必要的,哪些步骤是多余的,哪些答案需要化简。这些都需要一定的数学素养和解题经验,而大模型在这方面还比较欠缺。

这说明大模型在严谨的逻辑推理和精确计算上还是有欠缺。高考数学解答题,不仅要答案正确,解题步骤也要清晰、完整,不能有任何逻辑漏洞。大模型需要加强这方面的训练,提高解题的严谨性和规范性。