FutureX基准揭示大模型在动态预测中的挑战与执行误差的深层影响。
原文标题:先验+后验加持,大模型能否 hold 住推理预测的现实「溢出」?
原文作者:机器之心
冷月清谈:
怜星夜思:
2、文章提到,大模型长程任务失败的根本原因,在于执行环节的错误逐步累积,而非单纯的推理规划能力不足。那么,在实际开发和部署大模型应用时,我们有哪些具体的技术或设计思路可以有效缓解这种“自我条件效应”,提升模型在复杂长程任务中的鲁棒性呢?
3、FutureX-S&P500实验表明,顶尖LLM在一些财务预测上已能超越华尔街分析师。既然AI在数据分析和预测方面展现出如此潜力,那么在未来,传统的财会、金融从业者需要如何调整自己的技能树,才能保持核心竞争力,避免被技术浪潮淘汰呢?
原文内容
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
引言:近日,字节跳动等推出的 FutureX 动态评测基准,让大模型在答案未知、数据动态更新和闭环检验的情况下直面预测型「考卷」。这项工作在模型预测力和记忆力之间做了区分,也探究了模型在长程推理、执行稳健性和不确定性环境下的表现。此外,大模型在财务预测、疾病评估等场景的落地效果正在优化过程中,业内研究者也在寻找能填平推理和执行鸿沟的新机制。
目录
静态考卷太简单,FutureX 能把「记忆型」模型拉到真正的未来考场吗?执行错误「积少成多」,大模型长程任务失效不能只让推理「背锅」?...
当推理「用兵」碰上财务预测等现实场景,模型能否稳定「指挥」从而落地?...
过往的模型预测技术在往哪些方向发力?先验记忆与后验反思机制,未来能为模型预测带来新的突破吗?...
01 FutureX 「出世」,从长程推理到现实预测大模型「顶」住了吗?
1、目前,大多数用于评估大型语言模型的基准都依赖于预先存在的、固定不变的数据集。
2、这种评估方式在衡量模型的事实性知识或在已知数据集上的简单推理能力时表现较好,但在面对动态的真实世界进行预测时,则难以考察模型真实的推理实力。
① 静态基准通常处理的是在已有解决方案的情况下静态且定义明确的问题。这意味着,如果一个模型是在 2024 年的数据上训练的,并在源于同一时期的基准上进行了测试,那么其表现更多是对其记忆能力的衡量,而非对真正预测能力的考量。
② 且这种方法也容易受到数据污染的影响,无法有效测试模型在未知环境下真正的适应性推理能力。
3、基于此,字节跳动等发布了 FutureX 动态评测基准,将评估的重点从模型的记忆迁移到真正的动态预测能力。[2-1]
① 该基准每天自动抓取 195 个选自 2000 多个网站的高质量信息源,在事件发生前调度 23 个主流模型/智能体进行预测,事件发生后再抓取结果进行评分。这一闭环设计确保了模型在预测时对答案「未知」,杜绝了数据污染。
4、在该基准测试中,研究者将任务划分为基础、广泛搜索、深度搜索和超级智能体四个难度等级,实验发现在简单选择题上,不依赖工具的基础 LLM 表现较好,但在复杂任务上,能实时调用工具(联网搜索)的智能体开始显现出优势。[2-1]
① 基础类任务让模型从给定的少量选项中直接选择,广泛搜索类任务则是让穷举式地辨别并返回所有正确选项。
② 深度搜索类任务是指模型交互式搜索与信息整合,综合证据得出答案;超级智能体任务则让模型预测高波动、开放性事件,进行广域搜索和深度推理。
5、但模型的预测能力不仅局限于搜索,更多的是在充满不确定性的真实世界环境里进行高质量的推理。[2-2]
① FutureX 研究者为测试模型纯粹的预测能力,对模型进行了事前预测和事后搜索的对照实验。
② 实验表明,Grok-4 在事后搜索模式下得分极高,但在事前预测模式下准确率却大幅度下跌。
6、在现实的长程任务中,人类往往依靠推理、规划和分工等机制来维持任务的连续性和稳定性,但大模型在长程任务上的表现一直不太理想。传统的解释通常认为,这是因为模型缺乏足够的推理和规划能力,导致任务在长链条上最终崩溃。
7、然而,2025 年 9 月,剑桥大学等机构的研究者通过实验将「执行」与「推理」人为分离,他们预先向模型提供完整的知识与计划,只让模型负责逐步执行操作。在这种受控条件下,研究发现,即便不涉及推理与规划,模型在长程任务中依然容易失败,其根本原因在于执行环节的错误逐步累积。
① 随着任务步数的增加,模型的单步准确率会因「自我条件效应」而下降,先前的错误会污染后续判断,形成连锁效应。
② 尽管单步准确率的提升看似呈现「收益递减」的趋势,但在复合效应下,这种微小改进可以被放大,带来可执行任务长度的指数级增长。
02 LLM 推理「养兵千日」,指挥官「用兵时刻」还不到位?
1、目前来看,大模型推理预测能力的溢出仍没有完全被「消化」,在各类现实场景的运用都还有很大的优化空间。
2、此前,FutureX-S&P500 实验的研究者在 2025 年 Q2 财报发布前,让不同的 LLM Agents 预测标普 500 成分股的核心财务数据,并将预测结果与华尔街分析师的共识预测和实际财报数据进行了对比。[2-4]
3、实验结果表明,现有顶尖模型在约 40% 的公司财报预测中,能够超越华尔街分析师的表现。更重要的是,在部分案例中,智能体已经展现出初步的财务逻辑感知能力和前瞻性判断力。[2-5]...

