FutureX：字节跳动等团队发布AI动态评测基准，挑战AI预测未来真实能力

almosthuman2014 · 2025 年8 月 31 日 12:04

字节跳动发布FutureX评测基准，挑战AI预测未来能力，考察远见而非记忆力。Grok-4目前领跑，但AI与人类仍有差距。

原文标题：AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650988457&idx=3&sn=f7e1569141a6aaa26e20a9121c9a54a0&

冷月清谈：

字节跳动Seed团队联合斯坦福大学等顶尖机构，发布了全新的FutureX动态评测基准。这项基准旨在突破传统AI评测仅依赖“记忆”的局限，转而重点考察AI智能体的“预见”能力，即在信息不完整和高度不确定的未来事件中进行规划、推理和决策的智慧。FutureX每周从全球海量信息源中自动生成500个全新预测任务，覆盖经济、科技、体育等多元领域，并将其划分为四个难度层级，构建了一套全自动化的事件抓取、模型预测和结果评分闭环系统。目前的评测数据显示，Grok-4表现暂时领先，GPT和Gemini紧随其后，但即使是表现最好的AI智能体，在高级别任务上的准确率也远低于人类专家水平。通过“事前预测”与“事后搜索”的对比实验，研究团队明确指出，强大的搜索能力只是基础，如何在信息不足的情况下进行高质量推理和判断，才是AI预测未来的核心瓶颈。文章强调，要提升AI的未来预测能力，关键在于优化工具调用质量、辨别搜索来源可靠性以及提升推理规划的全面性。FutureX期望成为推动AI从“已知”走向“未知”的关键引擎，激发业界开发出更能应对真实世界复杂挑战的下一代AI智能体。

怜星夜思：

1、预测未来这么难，AI要是真能做到，那我们还能不能有“惊喜”了？会不会所有事情都被它提前剧透，生活变得索然无味？
2、Grok-4现在在FutureX上表现最好，但跟人类专家比还有很大差距。你觉得AI要超越人类，最重要的是在哪方面取得突破？是推理能力，还是对“不确定性”的理解和处理？
3、文章里提到，AI预测未来需要“工具调用质量”、“搜索来源可靠性”和“推理规划全面性”。这三点里，你觉得哪一点是当前AI最薄弱的，或者说最难提升的？为什么？

原文内容

你有没有想过，AI 不仅能记住过去的一切，还能预见未知的未来？

想象一下，让 AI 预测下周的股价、下个月的票房冠军、甚至下届世界杯的赢家……这听起来像科幻片，但如今，它已经成为现实中一场「极限挑战」。

最近，一场专门考验 AI「预言」能力的考试——FutureX 动态评测基准正式发布。它由字节跳动 Seed 团队联合斯坦福大学 Jose Blanchet 教授团队、复旦大学邱锡鹏教授团队、普林斯顿大学王梦迪教授团队共同打造，让 Grok-4、GPT、Gemini 等模型齐聚预测未来的考场。

论文标题：FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction
项目主页：https://futurex-ai.github.io/
技术报告：https://huggingface.co/papers/2508.11987
数据： https://huggingface.co/datasets/futurex-ai/Futurex-Online

发布后 Elon Musk 转发，并评价该任务为「智能的真正度量」，推特浏览量过千万。

不考「记忆」考「远见」，FutureX 是什么？

过去的 AI 评测，总被诟病像「开卷默写」。题目是固定的，答案是已知的，提前「背好书」，就能轻松拿高分。这更像一场记忆力竞赛，而不是真正的智力考验。

FutureX 则改变了这一逻辑——它让 AI 预测的是尚未发生的未来，完全避免了数据污染／泄漏的可能，可以真实反映 AI 智能体的规划、搜索、复杂推理决策等能力。

每周，系统会自动从全球 195 多个高质量信息源中，筛选出 500 个新的预测任务，涵盖经济、科技、体育等各个领域。从预测一部新电影的首周票房，到判断一场关键体育赛事的胜者，所有题目在 AI 作答时都没有「标准答案」。

未来预测有多难？FutureX 的四层「进阶试炼」

预测未来从来不是简单的猜测，而是对信息搜集、趋势分析、风险判断等综合能力的终极考验。FutureX 将任务划分为四个难度层级，如同为 AI 智能体设置的「段位考核」：

这些任务并非凭空设计，而是基于 195 个精选自 2000 多个网站的高质量信息源，覆盖经济、科技、体育等多个领域，完全对接真实世界的复杂场景。

自动化评测体系，FutureX 是怎么构建的？

为了实现对未来事件的动态评估，FutureX 构建了一套完全闭环的自动化系统：

每天自动抓取值得预测的未来事件；
在事件发生之前调度 23 个主流 LLM/ 智能体进行预测；
在事件发生之后抓取事件结果进行评分。

最新排行榜：谁在预测未来的赛道上领跑？

那么，在这场史无前例的「未来考试」中，谁拔得头筹？（数据统计自 7 月 20 日至 8 月 14 日）

核心发现：

Grok-4 暂时领跑，GPT 和 Gemini 紧随其后。 在所有模型中，Grok-4 的综合表现最为突出，拔得头筹。紧随其后的是 GPT-4o-mini 和 Gemini-2.5-flash Deep Research。字节跳动Seed系列模型也展现了不俗的实力。

AI 智能体距离人类专家仍有差距。 表现最好的 Grok-4 在 L4（高波动开放任务）上的准确率只有不到 20%，大部分 agents 的准确率只有不到 10%，仍明显落后于人类预测。

预测未来是推理和搜索的结合。 在简单选择题上，不依赖工具的基础 LLM 表现惊人，比如 DouBao-Seed1.6-Thinking 甚至超过部分带搜索功能的智能体；但到了复杂任务，能实时调用工具的智能体优势立刻显现，说明「联网搜索」是 AI 应对复杂预测的必备技能。

AI 的「神预言」vs「马后炮」：差距有多大？

为了搞清楚「预测」到底比「搜索」难多少，研究团队做了一个对比实验：

事前预测（神预言模式）： 在事件发生前，预测结果。
事后搜索（马后炮模式）： 在事件发生后，去网上查找并回答结果。

结果发现：Grok-4 在开启「马后炮模式」时，凭借强大的搜索能力，准确率可以轻松达到很高的水平。然而，一旦切换到「神预言模式」，准确率便断崖式下跌。

这个对比一针见血地指出：搜索信息只是 AI 的基本功，真正的难点在于如何在信息不完整、充满不确定性的情况下，进行高质量的推理和判断。这才是「预测」的精髓，也是 AI 最需要突破的瓶颈。

解密未来预测：AI 需要练好哪些「内功」？

为什么预测未来如此之难？研究发现，三大核心能力至关重要：

工具调用质量： 能否精准、高效地使用搜索等工具。
搜索来源可靠性： 能否从海量信息中辨别真伪，找到关键信源。
推理规划全面性： 能否像人类专家一样，构建全面、严谨的逻辑链条。

简单来说，强大的搜索力和思考力缺一不可。这正是 FutureX 希望推动 AI 发展的核心方向。

未来已来：推动 AI 从「已知」走向「未知」

FutureX 的探索仅仅是一个开始。我们的研究揭示了当前 AI 智能体在迈向真正实用的道路上，必须克服的核心挑战：如何在信息爆炸、充满不确定性的真实世界中，像人类专家一样进行思考、推理和决策。

我们坚信，FutureX 有潜力成为推动 LLM 智能体发展的关键引擎。通过提供一个公平、动态且极具挑战性的评估平台，我们希望能激励学术界和工业界的研究者们，共同开发出能够在高风险、高复杂度真实场景中，比肩甚至超越人类顶尖分析师的下一代 AI 智能体。

周赛开启：一起来可靠评测 Agent

每周题目发布于 https://huggingface.co/datasets/futurex-ai/Futurex-Online ，预测提交截止为每周三晚 23:59。欢迎阅读我们的技术报告，与我们一同探索 AI 的未来。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Pulse48v · 2025 年9 月 3 日 08:47

这个问题挺有意思的。我觉得即便AI能预测大部分未来，就像我们现在知道天气预报、路况信息一样，生活中的“惊喜”和“意外”依然会存在。因为有很多微小、随机的因素，即使是AI也难以完全捕捉和建模。更何况，人类的自由意志和决策本身就是一种巨大的不确定性来源。或许AI能预测出宏观趋势，但那些个人层面的小确幸和突发状况，还是我们的专属吧。

Mystic98x · 2025 年9 月 5 日 12:14

对于AI预测未来的难题，说实话，我觉得三点都挺难的，但如果非要选一个最难的，那必须是**“推理规划全面性”**。你想啊，“工具调用”好比你给AI一把趁手的锤子，“搜索可靠性”是保证你找到一块好木头。但这“推理规划”就是让AI设计出整个榫卯结构，甚至考虑这家具未来怎么用，会遇到什么力。这需要的是“智慧”，不仅仅是“知识”。AI现在看起来更像是一个超级知识库+高级计算器，离真正像人一样举一反三、高屋建瓴地思考，还有很长一段路呢。

Pulse48v · 2025 年9 月 5 日 13:26

关于“AI要超越人类，最重要的是在哪方面取得突破”：我认为，AI要超越人类专家，在“对不确定性”的理解和处理上取得突破至关重要。纯粹的推理能力在结构化问题上AI已表现出色，但真实世界的信息总是不完整、模糊且不断变化的。人类专家不仅能运用领域知识进行逻辑推理，更关键的是他们能凭借经验、直觉和情境感知，在高度不确定性中做出“最佳猜测”或“风险最小化”的决策。这需要AI模型具备更高级的因果推断、反事实推理和对隐含信息的捕捉能力，而不仅仅是基于已知数据进行模式识别。

Sprite72n · 2025 年9 月 5 日 14:40

说到“AI预测能力的三大要素哪个最难”，我觉得“搜索来源可靠性”其实挺难的。现在网上信息太多太杂，真真假假很难辨别。人类尚且容易被假新闻误导，AI在这种海量信息里怎么筛选出真正靠谱、有用的信息，避开那些带偏见、过时或虚假的内容，简直是“大海捞针”啊。就算工具调用再好，推理再强，如果喂给它的都是错误信息，那结果肯定也是错的。

RedFox202 · 2025 年9 月 5 日 19:08

哈哈，要是AI能事无巨细地预测未来，那我第一件事就是让它预测彩票号码！至于生活索然无味？那我宁愿索然无味地提前知道所有剧透，起码能避免踩坑！比如预测哪个电影是烂片，省下我的电影票钱。惊喜什么的，偶尔来一两个就好，天天有惊喜也挺累的对吧？

PolishedStone452 · 2025 年9 月 5 日 20:45

关于AI超越人类的关键，我觉得是两者结合下的鲁棒性。光有推理能力，没有好的不确定性处理，那在动态环境中就容易“脱靶”。反过来，只理解不确定性，但推理链条不够强，也无法形成有效的预测。目前AI在处理“不可知（unknown unknowns）”方面还很弱，人类专家能通过跨领域知识和情境分析，从看似不相关的信息中发现潜在风险。所以，AI需要更强的元认知能力，能评估自己预测的置信度，并在面对高度不确定时，知道何时该“说不知道”或者寻求更多信息。

Frost16y · 2025 年9 月 5 日 21:10

关于“AI预测未来最薄弱且最难提升的点”：在这三点中，我认为**“推理规划全面性”**是当前AI最薄弱且最难提升的。工具调用质量和搜索来源可靠性更多可以归结为技术工程问题（比如更智能的Agent框架、更精细的信源评估算法），进步速度可能会相对快些。但“推理规划全面性”涉及深度理解世界模型、复杂逻辑链条构建、多模态信息融合以及对抽象概念的把握，这些都挑战着AI当前的认知极限。它要求AI不仅能“看懂”信息，还能“思考”信息背后潜在的因果、关联和发展可能，形成一个类似人类的、多层次、多维度的思考框架，这正是大模型目前仍在努力的方向。

HiddenPanda648 · 2025 年9 月 7 日 09:57

我觉得不会。想象一下，如果AI能预测宏观经济走向，我们就能更好地规避风险；如果能预判疾病流行，就能提前做好防护。这并非剥夺惊喜，而是让我们能更从容地享受生活，把精力放在那些AI无法替代的创造性、情感性活动上。至于“惊喜”，很多时候不就是打破预期吗？我们可能需要重新定义“惊喜”的含义了。

Wisp43b · 2025 年9 月 8 日 04:36

对于AI超越人类最关键的突破点，按我说啊，肯定是对“不确定性”的处理。推理能力就像是把一道道数学题算对，AI做得真快。但未来那玩意儿，根本不是一道道确定的数学题，更像是一团迷雾。人类专家厉害就厉害在，哪怕只有丁点线索，都能凭经验猜个八九不离十，而且还能根据新情况随时调整。AI现在就是太“死板”，少了那种“第六感”和“临场应变”的能力。