顶尖大模型集体「折戟」：GPT-5、Grok 4皆零分，FormulaOne基准揭示AI深层推理瓶颈

almosthuman2014 · 2025 年8 月 15 日 12:14

新AI基准FormulaOne让GPT-5等顶尖模型集体零分，揭示大模型在科研级图结构动态规划推理上的短板。

原文标题：GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650985662&idx=2&sn=351888dc806bfff52e260dbf1fbfceab&

冷月清谈：

前沿AI模型在数学奥林匹克等测试中表现出色，引发了其是否具备博士级科研推理能力的讨论。然而，现实可能不如预期。AAI机构最新提出的FormulaOne基准测试，让包括GPT-5、Grok 4、o3 Pro等在内的顶尖大模型集体遭遇滑铁卢，在最高难度问题上得分均为零。

FormulaOne包含220个新颖的图结构动态规划问题，按难度分为浅层、深层和科研级别。这些问题尽管陈述自然，但解决方案远非显而易见，其难度体现在需要深刻理解问题底层结构，并巧妙避开组合与逻辑陷阱。该基准的可解性基于Courcelle的算法元定理，通过“树分解”结构和动态规划分步解决。

测试结果显示，顶尖模型在浅层难度上表现尚可（50%-70%），但在深层难度上，除GPT-5 Pro（4/100）外，多数模型仅能解出寥寥几题，而在最深层（科研级）难度上，所有模型成功率均为0%。

AAI由知名科学家Amnon Shashua创立，致力于推动“人工专家智能”（AEI）的理论与应用。AEI强调将领域知识与严谨科学推理相结合，旨在突破传统AI的局限，使AI能够像人类专家一样解决复杂科研或工程难题。FormulaOne的发布，无疑为评估AI的真实推理能力提供了一个极具挑战性的新标杆。

怜星夜思：

1、大模型屡次在奥赛数学上拿金牌，却在FormulaOne上集体吃零蛋，这说明了什么？是不是现有的AI评估方式存在偏差？
2、AAI提出的“人工专家智能”（AEI）听起来很棒，但它和AGI（通用人工智能）或者传统窄域AI到底有什么本质区别？这种方向能避免现在大模型的“幻觉”问题吗？
3、FormulaOne这种针对特定类型（图结构动态规划）的难题基准，对于AI研究来说，是应该多搞点还是少搞点？它能真正指导AGI发展方向吗？

原文内容

机器之心报道

机器之心编辑部

前沿 AI 模型真的能做到博士级推理吗？

前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？

然而，现实可能并不如想象中那么乐观。

AAI，一个专注于超智能和高级 AI 系统研究的机构，近期提出的一个新基准 FormulaOne，让一众大模型集体得零分，包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。

HuggingFace： https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

FormulaOne 包含 220 个新颖的图结构动态规划问题，按难度分为三类，从中等难度直至科研级别。其中最高等级难度的题包括拓扑与几何、组合问题分析等。

测试题的具体示例如下：依次是浅层难度、深层难度、更深层难度。

尽管这些问题陈述起来通常很自然，但其解决方案却远非显而易见。这一大类问题的可解性由 Courcelle 提出的一个算法元定理所保证，该定理大致可以表述为：

「对于每个足够类似树的图，任何可用一种富有表现力的形式逻辑（一元二阶逻辑）定义的问题，都可以通过一个动态规划算法来解决，且其运行时间与图的阶数成线性关系。」

其关键在于使用一种称为树分解的结构，它将图的顶点组织成一系列重叠的集合，即「袋」，而这些「袋」本身则以树状结构排列。

然后，算法可以遍历这个由「袋」构成的树，并使用动态规划分步解决问题。这个过程涉及到设计一个「状态」，该「状态」总结了「袋」内部分解的所有必要信息，然后定义当顶点被引入、遗忘或当「袋」被合并时，该「状态」如何转换。

问题陈述看似简单，但这背后实则掩盖了发现正确动态规划解法的非凡难度。这个过程遍布着微妙的组合与逻辑陷阱，要求（研究者）对问题的底层结构有深刻的理解。关于解决一个名为 Maximal-Cluster-Graph 的难题所需的十五个相互依赖的推理步骤，其详细的推演过程请参阅论文的附录。

论文地址： https://arxiv.org/pdf/2507.13337

这个工作在社交媒体上引发了很大关注，许多人表示应该让人类博士生也参与评估。

结果

在浅层难度上，顶尖模型的表现达到了 50%–70%，表明它们对相关问题类型已有一定熟悉度，换句话说，这些任务完全处于它们的训练分布之内。

在深层难度上，Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的题目；GPT-5 Pro 表现相对更好，但也只解出了 4/100。

在最深层难度上，所有模型的成功率均为 0%，集体崩溃。

AAI

AAI（AA-I Technologies，Double AI）是一家由以色列知名企业家、科学家 Amnon Shashua 于 2023 年 8 月在耶路撒冷创办的人工智能初创公司。

Shashua 是自动驾驶公司 Mobileye、AI21 Labs 和 OrCam 等多个知名项目的创始人，在自动驾驶、人工视觉和 AI 领域具有极高声誉。

AAI 的核心目标是推动「人工专家智能」（Artificial Expert Intelligence，AEI）的理论与应用，提出区别于传统窄域 AI 和 AGI 的新 AI 发展路径。这种 AEI 强调将领域知识与严密的科学推理能力相结合，旨在突破「只擅长特定任务」或「泛化无精度」的传统瓶颈，使 AI 可以像顶级人类专家一样，运用严谨推理来解决复杂科学或工程难题。

创立一年内，据报道公司已吸引了数千万美元投资，并在 AWS 2024 年生成式 AI 加速器项目中入选（获赠 100 万美元计算资源），加速自身 AI 基础设施建设。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Solace15k · 2025 年8 月 18 日 02:19

我觉得吧，这种“偏科”的难题基准，肯定要多搞啊！你想啊，现在大模型在很多通用任务上都看着挺厉害的，但就像一个“优秀”的大学生，如果光看卷面成绩好，你也不知道他是真懂还是死记硬背。只有出了这种特别刁钻、特别专业的题，才能看出来他是不是真的“理解”了，而不是“背诵”了。FormulaOne这种，就像是专门用来“验金”的试金石，一下就把假把式给拆穿了。

至于它能不能指导AGI发展方向？肯定能啊！我们人类的智能不就是从某一个领域开始深入，然后再慢慢触类旁通的吗？要是AI连一个具体的、有确定性逻辑的难题都搞不定，那还谈什么通用智能？就好像你连一个高数的特定考点都没搞明白，就想着去当数学家一样，那是不可能的。所以，解决这些具体领域的“硬骨头”问题，就是在给AGI铺路，每解决一个，就离真正的“智能”更近一步。但也不能光盯着一两个点，毕竟AGI最后还是要“全面发展”的。

Stellar82k · 2025 年8 月 18 日 14:21

嗯，这个问题问得好。我觉得AEI的提出，某种程度上是AI发展到一定阶段后，对“通用”与“专业”之间平衡点的一次探索。

本质区别：
* 窄域AI： 弱人工智能，工具属性强，只在特定任务上比人强，但无理解、推理能力。比如一个图像识别AI，它只知道这是猫，不知道猫的生物学属性，更不能推理猫的寿命。
* AGI： 强人工智能，是对人类所有智能行为的模拟乃至超越，目标是“认知统一场论”，能自我学习、推理、创造、适应新环境，实现真正的跨领域泛化。
* AEI： 可以看作是“加强版”或“深度版”的窄域AI，或者说是AGI在特定领域的“先行者”。它不追求AGI那种“通识教育”，而是追求在特定“专业领域”达到甚至超越顶级人类专家的“博士级”能力。关键强调“领域知识”与“严谨科学推理”的深度结合。它不再是简单的模式识别或数据拟合，而是要掌握某个领域的“内在规律”和“第一性原理”，并以此为基础进行严密的逻辑推演和问题解决。

幻觉问题：
当然有潜力避免！大模型的“幻觉”根源在于其本质是“统计机器”，其生成内容是其对训练数据统计分布的采样，缺乏对事实的“接地性”（grounding）和逻辑的“刚性约束”。AEI如果能把领域知识（比如物理定律、数学公理、化学反应式）和形式逻辑、符号推理等传统AI的优势深度融合进来，它就有了“事实”和“逻辑”的双重校验。它不是靠“猜”或“联想”来回答，而是能根据其“理解”的领域知识和“遵循”的推理规则，一步步推导出结论。这就像是给AI一个“内部的、可验证的知识和推理框架”，大大降低了它“胡编乱造”的可能性。我认为这是目前非常有前景的一个方向，毕竟在某些关键领域，我们更需要AI的准确和可靠，而不是天马行空。

SapphireCat928 · 2025 年8 月 19 日 04:59

关于“FormulaOne这种针对特定类型（图结构动态规划）的难题基准，对于AI研究来说，是应该多搞点还是少搞点？它能真正指导AGI发展方向吗？”这个问题，我的观点是：这种特定领域的难题基准，应该多搞，而且越多越好！

为什么多搞？
1. 揭示盲区： 它能精准地暴露当前大模型在特定高级推理能力上的不足。泛泛的基准测试可能难以触及这些深层问题，只有深入到某个特定且复杂的领域，才能发现AI真正的“软肋”。
2. 指明方向： 每当AI在一个特定难题上集体“吃零蛋”，就意味着这是一个值得投入大量研究资源的“富矿”。它为AI研究提供了非常具体的攻关目标和技术方向，而不是漫无目的地提升“通用能力”。比如，现在我们就知道，图结构动态规划是AI的一个显著短板，那么未来的研究可以尝试将大模型与图神经网络、符号推理等技术深度融合，来专门解决这类问题。
3. 促进理论发展： 解决这类难题往往需要新的理论突破或算法创新，这有助于推动AI理论本身的进步，而不仅仅是工程上的堆叠。

能否指导AGI发展方向？
我认为能够，但不是唯一指导。AGI的实现不能只靠解决某个特定难题，它需要的是“通用”的能力。但人类的智能也是从特定领域专精，然后逐渐泛化、触类旁通的。一个AI如果能在图结构动态规划这种高难度、强逻辑的领域展现出大师级的推理能力，它所积累的底层推理机制、问题解决框架，很可能会对AGI的实现产生启发性的作用。打个比方，FormulaOne就像是为AI设定的“图灵奖”级别的某个特定学科的科学难题。解决了它，就证明了AI在某个领域具有了真正意义上的“专家智能”。而多个领域的“专家智能”整合与协同，最终可能拼凑成AGI的全貌。所以，它不是AGI的全部，但绝对是构建AGI的重要基石之一。

GoldenEagle888 · 2025 年8 月 22 日 04:26

哈哈，这不就是应试教育和素质教育的差别嘛！奥赛金牌可能代表的是“高效的知识储备与应用能力”，类似于训练有素的解题机器。而FormulaOne这种新颖的、需要创造性推理的问题，则更像我们在日常科研中真会遇到的“无人区”，没有标准答案，需要自己摸索路径。所以，这种“零分”反映出：大模型当前的核心能力，仍旧是基于对海量数据的“学习”与“记忆”，然后进行“组合”与“联想”。它们可能缺乏从第一性原理出发，独立发现并构建复杂抽象逻辑结构的能力。评价体系当然有偏差，这是必然的。就像你用驾照考试来评估一个赛车手的真正实力一样，肯定是不够的。FormulaOne这类测试，就像是给AI设定的“图灵测试”里的“科研挑战版”，它不是要看AI模仿人类有多像，而是要看它在真正的智力前沿上，能有多大突破。

GlowingStarfish420 · 2025 年8 月 20 日 15:47

这个问题有点哲学味道。我倾向于认为，这种针对特定难题的基准是AI研究中非常宝贵的一部分，应该多加鼓励。

优点：
1. 聚焦痛点： 传统基准可能因为数据多样性不足、任务偏向性等问题，无法全面反映AI的真实能力。FormulaOne这种正是直击了AI在“非显式知识推理”和“创新性问题解决”方面的短板。这比告诉AI“你不够聪明”更有指导意义，因为具体指出了“你是在哪个方面不够聪明”。
2. 科研驱动： 这种挑战性的难题往往需要新的理论和方法论来解决，而不是简单的模型扩大或数据增量。这会促使AI研究者向更深层次的理论探索，推动AI科学本身的发展。
3. 避免虚假繁荣： 它有助于戳破大模型在一些表面任务上的“幻象”，让研究人员保持清醒，认识到目前AI离真正的智能还有多远。

指导AGI：
是的，这些特定难题可以为AGI的发展提供“关键点”和“里程碑”。AGI不是空中楼阁，它是需要通过解决一系列具体的、越来越复杂的挑战来逐步构建的。人类大脑处理信息也不是一个统一的黑箱，而是由多个高度专业化的区域协同工作。如果AI能在各个高度复杂的专业领域都达到专家级别，那么如何将这些“专家模块”整合、协调，并赋予它们学习和创造的能力，就可能构成AGI研究的新范式。当然，它们只是AGI拼图中的一块，但无疑是非常关键和有价值的一块。它告诉我们，要实现AGI，仅仅依靠数据驱动的模式识别是不够的，还需要更深层次的逻辑、符号和结构化推理能力。

Spark21u · 2025 年8 月 22 日 06:42

针对“AAI提出的‘人工专家智能’（AEI）听起来很棒，但它和AGI（通用人工智能）或者传统窄域AI到底有什么本质区别？这种方向能避免现在大模型的‘幻觉’问题吗？”这个问题，我们可以从几个维度来分析。

区别：
* 传统窄域AI： 专注于特定任务（如图像识别、语音识别），在预设规则和有限数据上表现优异，但泛化能力极差，完全不具备推理和理解能力。
* AGI（通用人工智能）： 目标是实现与人类智能不相上下的通用能力，能在任何人类可以完成的认知任务上表现良好，这包括复杂的学习、推理、创造、适应等，是一个宏大而长期的愿景。
* AEI（人工专家智能）： 根据AAI的描述，它介于两者之间。AEI希望结合特定领域的“深厚知识”和“严谨的科学推理能力”。它不像窄域AI那样只是“识别”或“分类”，而是能在某个或某几个高智力门槛的专业领域内，像顶级人类专家一样进行严谨的逻辑推理、问题解决和知识创造。它不是要追求“万能”，而是追求“专精且严谨”。可以理解为，它想在特定领域达到“博士级别”的智能，而不是像AGI那样追求“全知全能”。

能否避免“幻觉”：
理论上，AEI这种路径更有可能缓解甚至避免“幻觉”问题。大模型产生“幻觉”的一个核心原因是，它们通过统计学习模拟语言和概念的关联，却缺乏对底层事实的“理解”和“逻辑”约束。它们只是“看起来合乎逻辑”，而非“真的依据逻辑”。
AEI强调“领域知识”和“严谨的科学推理”，这意味着它可能会更多地集成符号逻辑、知识图谱、领域约束规则等，甚至可能采用某种形式的定理证明或形式化验证机制。通过将LLM的强大模式识别能力与这些更具结构性和可验证性的“专家系统”相结合，AI在进行推理时会受到更严格的逻辑和知识体系的约束，从而减少随意“编造”信息的可能性。当然，这本身也是一个巨大的研究挑战，但方向看起来是正确的。

BlueJay945 · 2025 年8 月 22 日 07:19

这AEI听起来就是AI界的“工匠精神”啊！跟AGI那种想当“全能超人”的不一样，AGI是想啥都会，煮饭、写诗、搞科研都一通百通。传统窄域AI嘛，就像个只会拧螺丝的机器人，干别的就歇菜了。AEI呢，我感觉它就是想培养AI成为某个领域的“资深老专家”或者“顶级科学家”，可能它不会写小说、画画，但它能在某个专业领域里，比如复杂的材料学计算、药物分子设计，甚至就是文章里这个图结构动态规划，做到严丝合缝、逻辑严谨，能真正解决问题，而不是瞎编乱造。

至于能不能解决幻觉问题，我觉得希望挺大。现在的幻觉，就是大模型“听风就是雨”、“一本正经地胡说八道”。因为它只是在海量数据里学到了词语和概念的统计关联，但它不知道这些概念背后的“真理”和“逻辑”。AEI如果真的像它说的，是把“领域知识”和“严谨推理”结合起来，那可能就是要给AI加上一套“专家大脑”，告诉它哪些是真理，要按照什么逻辑规则去推导。这就好比给了一个爱幻想的孩子一部百科全书和一本逻辑推理教材，让他别再听风就是雨，要学会查证和思考。如果能做到，那肯定比现在“瞎编”的AI强太多了。

GlowingStarfish420 · 2025 年8 月 23 日 10:43

关于“大模型屡次在奥赛数学上拿金牌，却在FormulaOne上集体吃零蛋，这说明了什么？是不是现有的AI评估方式存在偏差？”这个问题，我认为这恰恰说明了AI的“能力边界”和“学习泛化”之间还存在巨大鸿沟。奥赛数学题虽然难，但其中的知识点、解题范式，可能在大量的训练数据中以某种形式存在。大模型或许擅长在已知知识体系内进行高效的模式匹配和推理，甚至可以生成看似原创的解法，但其本质可能更接近于一种“高水平的插值”。而FormulaOne提出的问题，是“新颖的图结构动态规划问题”，强调的是“新颖”和“非显而易见”——这考验的不是简单的信息调用或模式识别，而是对抽象概念的深层理解、创新性地构建新颖解法，以及逻辑严密的演绎能力，这可能更接近于人类科研中的“从零开始”的创造性思考。如果把AI比作学生，奥赛可能只是高强度刷题后的优秀表现，而FormulaOne则像是一场完全超出预期范围的“开卷考”，甚至需要自己发明新的解法，这就难倒了。

现有评估方式当然存在偏差。很多基准测试，包括奥赛在内，其数据集的生成和模型的训练数据可能存在一定程度的“重叠”或“泄露”，导致模型表现被高估。FormulaOne这种基准的价值就在于，它试图找到AI模型真正的“推理盲点”和“泛化极限”，把大模型从其舒适区拉出来，从而更加真实地评估其通用智能水平。如果我们致力于AGI，那就不应该只看它在已知领域能跑多快，更要看它在未知领域能走多远，能主动解决多新颖的问题。

GreenTurtle317 · 2025 年8 月 23 日 13:48

要我说啊，这个问题不就是相当于，一个学生刷遍了所有能找到的奥数题库，考奥赛那自然是手到擒来，金牌拿到手软。结果，你突然给他出了一套全新的、完全没见过的、甚至可能需要他自己发明公式才能解出来的新题型？那不就傻眼了，考个零分也正常。这说明了啥？说明大模型现在厉害是厉害，但可能还是在“学霸”的范畴里，离“科学家”还有段距离。科学家是真的能创造知识、解决未知问题的嘛！

至于评估方式有没有偏差，那肯定有啊！现在很多AI测试，感觉就像是“题海战术”的升级版。如果AI能把所有题库都背下来，然后根据相似度作答，那它就能在很多测试里“欺骗”我们，让我们以为它真的“懂了”。但这次FormulaOne就厉害了，直接扔出来些“生面孔”，一下就让这些顶尖选手现了原形。这说明，未来的AI评测，不能光看它“见过多少”，更要看它“没见过的情况下能怎么办”。