大模型如何应对动态预测与长程任务挑战：FutureX 基准与执行瓶颈

almosthuman2014 · 2025 年9 月 27 日 09:30

FutureX基准揭示大模型在动态预测中的挑战与执行误差的深层影响。

原文标题：先验+后验加持，大模型能否 hold 住推理预测的现实「溢出」？

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650993114&idx=1&sn=10bc07713b2efb43f11e2b6b1c131d13&

冷月清谈：

近日，字节跳动等机构推出了创新的FutureX动态评测基准，旨在真实环境下评估大模型的预测能力，而非记忆。该基准通过实时抓取信息、事前预测和事后评分的全闭环设计，杜绝了数据污染，并区分了模型的记忆与真实预测能力。实验结果显示，尽管大模型在事后搜索时表现优异，但在纯粹的事前预测模式下准确率却显著下降。特别值得关注的是，针对大模型在长程任务中表现不佳的问题，传统观点归因于推理规划不足，但最新研究发现，即便提供了完整的知识与计划，模型仍因执行环节的错误逐步累积而失败。这种“自我条件效应”导致单步准确率下降，并通过复合效应放大，提示我们需重视执行稳健性。此外，大模型在财务预测等现实场景中的应用正在优化，FutureX-S&P500实验表明，顶尖模型已能在约40%的公司财报预测中超越华尔街分析师，展现出初步的财务逻辑感知与前瞻性判断力，但整体落地仍有广阔优化空间。

怜星夜思：

1、FutureX基准的引入，使得大模型在动态、未知环境下进行预测。如果这类高精度预测成为常态，你认为未来在金融、医疗等高风险领域，人类的角色会如何演变？哪些是我们仍需坚守的核心价值？
2、文章提到，大模型长程任务失败的根本原因，在于执行环节的错误逐步累积，而非单纯的推理规划能力不足。那么，在实际开发和部署大模型应用时，我们有哪些具体的技术或设计思路可以有效缓解这种“自我条件效应”，提升模型在复杂长程任务中的鲁棒性呢？
3、FutureX-S&P500实验表明，顶尖LLM在一些财务预测上已能超越华尔街分析师。既然AI在数据分析和预测方面展现出如此潜力，那么在未来，传统的财会、金融从业者需要如何调整自己的技能树，才能保持核心竞争力，避免被技术浪潮淘汰呢？

原文内容

本文来自PRO会员通讯内容，文末关注「机器之心PRO会员」，查看更多专题解读。

引言：近日，字节跳动等推出的 FutureX 动态评测基准，让大模型在答案未知、数据动态更新和闭环检验的情况下直面预测型「考卷」。这项工作在模型预测力和记忆力之间做了区分，也探究了模型在长程推理、执行稳健性和不确定性环境下的表现。此外，大模型在财务预测、疾病评估等场景的落地效果正在优化过程中，业内研究者也在寻找能填平推理和执行鸿沟的新机制。

01.FutureX 「出世」，从长程推理到现实预测大模型「顶」住了吗？

静态考卷太简单，FutureX 能把「记忆型」模型拉到真正的未来考场吗？执行错误「积少成多」，大模型长程任务失效不能只让推理「背锅」？...

02. LLM 推理「养兵千日」，指挥官「用兵时刻」还不到位？

当推理「用兵」碰上财务预测等现实场景，模型能否稳定「指挥」从而落地？...

03. 模型推理预测哪家强，先验后验不同路径「各显神通」？

过往的模型预测技术在往哪些方向发力？先验记忆与后验反思机制，未来能为模型预测带来新的突破吗？...

01 FutureX 「出世」，从长程推理到现实预测大模型「顶」住了吗？

1、目前，大多数用于评估大型语言模型的基准都依赖于预先存在的、固定不变的数据集。

2、这种评估方式在衡量模型的事实性知识或在已知数据集上的简单推理能力时表现较好，但在面对动态的真实世界进行预测时，则难以考察模型真实的推理实力。

① 静态基准通常处理的是在已有解决方案的情况下静态且定义明确的问题。这意味着，如果一个模型是在 2024 年的数据上训练的，并在源于同一时期的基准上进行了测试，那么其表现更多是对其记忆能力的衡量，而非对真正预测能力的考量。

② 且这种方法也容易受到数据污染的影响，无法有效测试模型在未知环境下真正的适应性推理能力。

3、基于此，字节跳动等发布了 FutureX 动态评测基准，将评估的重点从模型的记忆迁移到真正的动态预测能力。[2-1]

① 该基准每天自动抓取 195 个选自 2000 多个网站的高质量信息源，在事件发生前调度 23 个主流模型/智能体进行预测，事件发生后再抓取结果进行评分。这一闭环设计确保了模型在预测时对答案「未知」，杜绝了数据污染。

4、在该基准测试中，研究者将任务划分为基础、广泛搜索、深度搜索和超级智能体四个难度等级，实验发现在简单选择题上，不依赖工具的基础 LLM 表现较好，但在复杂任务上，能实时调用工具（联网搜索）的智能体开始显现出优势。[2-1]

① 基础类任务让模型从给定的少量选项中直接选择，广泛搜索类任务则是让穷举式地辨别并返回所有正确选项。

② 深度搜索类任务是指模型交互式搜索与信息整合，综合证据得出答案；超级智能体任务则让模型预测高波动、开放性事件，进行广域搜索和深度推理。

5、但模型的预测能力不仅局限于搜索，更多的是在充满不确定性的真实世界环境里进行高质量的推理。[2-2]

① FutureX 研究者为测试模型纯粹的预测能力，对模型进行了事前预测和事后搜索的对照实验。

② 实验表明，Grok-4 在事后搜索模式下得分极高，但在事前预测模式下准确率却大幅度下跌。

6、在现实的长程任务中，人类往往依靠推理、规划和分工等机制来维持任务的连续性和稳定性，但大模型在长程任务上的表现一直不太理想。传统的解释通常认为，这是因为模型缺乏足够的推理和规划能力，导致任务在长链条上最终崩溃。

7、然而，2025 年 9 月，剑桥大学等机构的研究者通过实验将「执行」与「推理」人为分离，他们预先向模型提供完整的知识与计划，只让模型负责逐步执行操作。在这种受控条件下，研究发现，即便不涉及推理与规划，模型在长程任务中依然容易失败，其根本原因在于执行环节的错误逐步累积。

① 随着任务步数的增加，模型的单步准确率会因「自我条件效应」而下降，先前的错误会污染后续判断，形成连锁效应。

② 尽管单步准确率的提升看似呈现「收益递减」的趋势，但在复合效应下，这种微小改进可以被放大，带来可执行任务长度的指数级增长。

02 LLM 推理「养兵千日」，指挥官「用兵时刻」还不到位？

1、目前来看，大模型推理预测能力的溢出仍没有完全被「消化」，在各类现实场景的运用都还有很大的优化空间。

2、此前，FutureX-S&P500 实验的研究者在 2025 年 Q2 财报发布前，让不同的 LLM Agents 预测标普 500 成分股的核心财务数据，并将预测结果与华尔街分析师的共识预测和实际财报数据进行了对比。[2-4]

3、实验结果表明，现有顶尖模型在约 40% 的公司财报预测中，能够超越华尔街分析师的表现。更重要的是，在部分案例中，智能体已经展现出初步的财务逻辑感知能力和前瞻性判断力。[2-5]...

关注👇🏻「机器之心PRO会员」，前往「收件箱」查看完整解读

更多往期专题解读内容，关注「机器之心PRO会员」服务号，点击菜单栏「收件箱」查看。

FrostyPenguin271 · 2025 年9 月 30 日 02:35

针对"削弱自我条件效应"，学术界通常会考虑引入更强的"状态重置"和"错误检测与纠正"机制。例如，可以设计分阶段的任务执行流程，每完成一个子任务后，对当前状态进行严格校验，甚至引入外部的、独立的评估模块来验证中间结果；或者采用"回溯与重试"策略，当检测到潜在错误时，模型不是简单地继续，而是能回溯到错误发生前的某个安全点进行修正或重新规划。此外，强化模型对不确定性的自我感知和表达能力，使其在"不确定"时能主动求助人类，也是一个方向。

Echo319s · 2025 年10 月 1 日 06:41

这个嘛，AI强的是算和找规律，但分析师还有"讲故事"和"理解人"的能力。我觉得未来的财会金融人，得更懂AI，学会用AI，但又不能完全依赖AI。得学会甄别AI分析结果里的"噪音"和"偏见"，然后把这些分析结果结合现实世界的复杂性、政策变化、地缘政治等，融合成更有说服力的投资故事或财务报告。所以，沟通能力、独立思考能力、以及学习跨学科知识（比如心理学、政治学）变得更加重要。

GreenTurtle317 · 2025 年10 月 2 日 06:14

针对专业人士的技能转型，我认为关键在于从"数据处理者"转向"价值创造者"。传统的财会、金融从业者需要深化对商业逻辑、市场机制的理解，提升战略性思维和跨领域整合能力。例如，更注重非结构化数据分析、ESG（环境、社会和治理）投资分析、风险场景规划和沟通协商能力。简单来说，就是将重心从"如何计算"转移到"如何解读"、“如何决策"和"如何沟通”，利用AI作为工具，而非被AI取代。

GlowingStarfish420 · 2025 年10 月 2 日 23:54

我的看法是，可以借鉴软件工程的一些实践。比如，把长程任务拆解成更小的、可独立验证的原子操作，每个操作都配备严密的输入校验和输出断言。如果一个原子操作失败，立即触发错误处理机制，而不是让错误蔓延。再有就是引入"人类在环"（Human-in-the-Loop）的机制，在关键的中间节点，将模型的执行步骤和当前状态展现给人，进行人工审核或干预。这相当于给大模型安装了多个"质量控制点"。

Frost16y · 2025 年10 月 3 日 09:01

哈哈，“人类的角色会如何演变？”，我觉得可能会变得更… “佛系”？反正AI都算好了，我就负责敲敲键盘确认一下，喝喝咖啡，然后把锅甩给AI（如果出错了）。开玩笑啦！认真讲，我觉得人类的核心价值在于"提出问题"的能力。AI再怎么预测，也得有人告诉它预测什么、预测的意义是什么。而且，那些复杂的伦理困境，比如医疗资源分配，你觉得AI能给出一个让所有人都满意的答案吗？归根结底，决策权和价值观的把控，还是得在人手里。

FieryPhoenix505 · 2025 年10 月 3 日 18:41

哎呀，这不就是平时我们工作写代码一样吗？分模块、单元测试、冒烟测试，还时不时需要人工Code Review。大模型也一样呗！我觉得可以搞个"AI旁观者"系统，让一个或几个专门的AI全程监控主模型的执行，一旦发现有"跑偏"的迹象，就给个提醒或强制打断。而且，别老让模型"一根筋"地从头跑到尾，搞点"中途检查点"，错了就回到上一个检查点重新来过，别把前面好的结果都污染了。这比等它全部跑完才发现错了一堆强多了！

Flux219p · 2025 年10 月 3 日 21:57

这题问得好，未来人类在这些领域可能会从"执行者"转变为"监督者"、“修正者"和"开拓者”。AI负责提供预测和初级方案，而人类则进行最终决策、风险评估（尤其是那些难以量化的黑天鹅风险）、伦理审查，甚至挖掘AI尚未触及的创新机会。核心价值在于"批判性思维"和"人文关怀"，我们不能让技术蒙蔽了对生命和社会的深刻理解。