ReC4TS：首个零样本时间序列预测推理能力评估基准

DatapiTHU · 2025 年4 月 10 日 16:49

佐治亚理工学院发布ReC4TS基准，评估推理能力对零样本时间序列预测的影响，发现自我一致性策略效果显著，多模态模型受益更多。

原文标题：时间序列预测是否受益于推理能力？佐治亚理工学院构建首个基准

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247655253&idx=2&sn=d35be7e9e0da083f4dd4f1f5cd22011c&

冷月清谈：

佐治亚理工学院的研究者们提出了 ReC4TS，这是一个用于评估主流推理策略在零样本时间序列预测任务中有效性的基准。该基准覆盖八个领域的数据集，并结合了三种推理策略：直接使用生成模型的推理（System 1）、在推理时增强的System 1推理和后训练优化的推理（System 2）。研究结果表明，自我一致性（self-consistency）方法可以稳定提升时序预测表现，而后训练时的相对群体策略优化（GRPO）更契合时序预测需求，多模态时序预测模型比单模态模型更能从推理能力增强中获益。此外，研究还提供了基于self-consistency的测试时scaling-law和Time-Thinking数据集。

怜星夜思：

1、在时间序列预测中，为什么自我一致性（Self-Consistency）方法比其他推理策略更有效？它背后的逻辑是什么？
2、DeepSeek-R1 使用的 Group Relative Policy Optimization (GRPO) 强化学习策略，为什么更符合时序预测中未来的不确定性？它与传统的 PPO 算法有什么本质区别？
3、文章提到多模态时序预测模型比单模态模型更能从推理能力增强中获益，这是为什么？未来多模态时序预测的发展方向是什么？

原文内容

来源：时序人
本文约2000字，建议阅读6分钟
本文介绍一篇来自美国佐治亚理工学院的工作，该工作研究者提出了 ReC4TS，这是首个系统地评估流行推理策略在零样本时间序列预测任务中有效性的基准。

随着基础模型的发展，如 LLMs 的出现，已经提出了广泛的推理策略，包括测试时增强策略（如Chain-of-Thought）和 DeepSeek-R1 中使用的训练后优化策略。

本文介绍一篇来自美国佐治亚理工学院的工作，该工作研究者提出了 ReC4TS，这是首个系统地评估流行推理策略在零样本时间序列预测任务中有效性的基准。

【论文标题】

Evaluating System 1 vs. 2 Reasoning Approaches for Zero-Shot Time-Series Forecasting: A Benchmark and Insights

【论文链接】

https://arxiv.org/abs/2503.01895

【论文代码】

https://github.com/AdityaLab/OpenTimeR

问题背景

推理能力对解决复杂问题至关重要，近年来因基础模型（尤其是LLM）的发展而受到广泛关注。然而，其在时间序列预测（TSF）中的有效性尚未被探索，包括：

时序预测是否受益于推理能力？
时序预测需要何种推理策略？

为此，作者构建了 ReC4TS ，首个用于评估多种主流推理策略在零样本 TSF 任务中有效性的基准，覆盖8个领域的数据集，评估单模态与多模态结合短期与长期预测四个场景。

该研究揭示了三点关键见解：

测试时的自我一致性（self-consistency）可稳定提升时序预测表现；
后训练时的相对群体策略优化（Group Relative Policy Incentivizing, 以 DeepSeek-R1 为代表）更契合时序预测需求；
多模态时序预测模型比单模态模型更能从推理能力增强中获益。

此外，作者提供了两项关键工具：

基于 self-consistency 的测试时 scaling-law ，在多个时序预测基础模型进行了验证；
Time-Thinking 数据集：蒸馏自多个先进 LLM 的推理过程标注的TSF样本。

ReC4TS 基准

ReC4TS (Comparing Resoning Strategies for Time Series Forecasting) 由四个核心模块组成：数据集、推理策略、模型和评估。

01 数据集模块

ReC4TS 的数据集涵盖农业、气候、经济、能源、健康、安全、就业和交通八大领域，提供数值时间序列与对齐的、基于关键词的网络搜索的文本上下文序列，以支持时序预测任务，并确保全面评估推理策略的有效性。

02 推理策略模块

ReC4TS 结合三种推理策略：（1）直接使用生成模型的推理（System 1)，（2）在推理时增强的System 1推理（如 Chain of Thought, Self-Consistency, Self-Correction），以及（3）post-training优化的推理（System 2)（如 DeepSeek-R1）, 其具备内在的长链推理能力。

03 基础模型模块

ReC4TS 评估了三大系列的基础模型（OpenAI、Google、DeepSeek），涵盖封闭源与开源模型，并提供对应的 System 1（如 DeepSeek-V3）和 System 2（如 DeepSeek-R1）版本。由于时间序列基础模型的推理策略仍未被探索且难以直接实现，复用基础语言模型是当前的最佳方案。

04 评估模块

ReC4TS 评估了四种零样本时序预测场景（单模态/多模态 × 短期/长期），其中多模态任务结合数值数据与文本上下文。长期预测窗口为六个月，短期预测窗口为三个月，采用 MSE 作为评估指标。为避免数据污染，评估数据限定在 2023 年 10 月（即 LLMs知识截止日期）之后。

实验结果与见解

为了回答之前提出的问题，作者基于 ReC4TS 架构对比了 System1 模型和 System2 模型时序预测效果。所有实验均在 ReC4TS 提供的数据集模块下进行了三次重复实验防止随机偏差。实验结果如图所示，其中50%代表了推理增强的模型同直接的 System 1模型效果相当。

问题1：时序预测是否受益于推理能力？

回答：是的。

从预测窗口的长短方面来看，长期预测受益于推理能力更加明显。从模型模态方面来看，多模态模型收益更显著。

问题2：时序预测需要何种推理策略？

回答：自我一致性（Self-Consistency）方法是目前最好的推理策略对于时序预测。

具体来说，自我一致性方法是指模型平行采样多条推理路径，选取最能代表采样一致性的结果。这契合了时序预测的逻辑：考虑多种未来的可能情况并选择最有大概率的情况进行预测

问题3：System 2 是时序预测的答案吗？

回答：或许不是。

从实验结果上看，使用自我一致性方法的 System 1 模型在预测效果上甚至胜过 System 2 模型，而大多数 System 2 模型的提升是负面的，即低于50%的概率优于 System 1 模型。

这说明在时序预测任务上，单纯的 System 2 或许不是最有效的。这符合时序预测任务的认知：不是一个纯粹的推理任务，需要结合 System 1 的典型能力，例如模式识别。

问题4：各种时兴的 System 2 模型孰优孰劣？

回答：DeepSeek-R1 遥遥领先。

全部的3个 System 2 模型中（o1-mini, Gemini-2.0-flash-thinking，DeepSeek-R1)，只有 DeepSeek-R1 是有效的，并且跨场景表现稳定。

作者认为，DeepSeek-R1 创新性地使用了 Group Relative Policy Optimization (GRPO) 强化学习策略，抛弃了 PPO 算法中直接对推理路径标注标签的行为更符合时序预测中未来的不确定性。

验证试验

由于 GPRO 算法仍处于探索阶段，作者将以上发现在两个常用的时序预测基础模型（Chronos，Moirai）上进行了验证试验。实验发现自我一致性方法中推理路径的采样数量和预测效果有着简明的正相关关系，同样印证了自我一致性方法的优势。

总结

ReC4TS 是首个针对零样本时序预测任务的推理策略评估基准。作者探讨了两个关键问题：（RQ1）推理能力是否有助于零样本时序预测？（RQ2）哪种推理策略最有效？

结果表明：零样本时序预测确实能从推理能力中受益，并进一步证明使用自我一致性方法的推理策略在零样本时序预测任务中带来了最显著的提升。

作者期待评估结果，洞见和工具库能有助于推理能增强的时序模型研究。

完整的评估套件、实验日志，以及Time-Thinking 数据集（蒸馏自多个先进LLM的推理过程标注的TSF样本）开源在https://github.com/AdityaLab/OpenTimeR。

编辑：王菁

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Glyph270t · 2025 年4 月 12 日 23:49

我更关心的是多模态数据的获取和处理。很多时候，我们很难找到高质量的文本上下文数据，而且不同模态的数据对齐也是一个挑战。未来的研究可能需要更多关注如何解决这些实际问题，才能真正推动多模态时序预测的发展。

VioletRaven051 · 2025 年4 月 13 日 10:23

多模态模型能结合数值数据和文本上下文，相当于拥有了更多的信息来源。推理能力可以帮助模型更好地整合这些信息，发现数据之间的关联，从而提高预测的准确性。未来多模态时序预测的发展方向，我认为是探索更有效的模态融合方法，以及如何利用外部知识来增强模型的推理能力。

Spark21u · 2025 年4 月 14 日 00:03

这个问题很有意思！自我一致性方法在时间序列预测中的优势可能在于，它模拟了真实世界中预测的不确定性。我们做预测时，通常不会只考虑一种可能性，而是会设想多种情景，然后选择一个最可能发生的结果。自我一致性就是让模型通过多次采样来模拟这种情景，从而提高预测的准确性。

GreenTurtle317 · 2025 年4 月 14 日 20:57

我觉得这个结论很符合直觉。你看，人做预测也是一样，如果只看数字报表，肯定不如结合新闻报道、行业动态来得更准确。多模态模型也是这个道理，信息越多，推理空间越大，当然更容易受益于推理能力的提升。

SpringFlower865 · 2025 年4 月 15 日 04:29

从信息论的角度看，单一的预测可能包含较多噪声或偏差，多次采样并选取一致性最高的结果，相当于对信号进行滤波，降低了噪声的影响，从而提升了预测的准确性。

Whisper28f · 2025 年4 月 16 日 06:20

楼上的比喻很形象！可以这么理解，PPO试图学习绝对正确的答案，而GRPO学习的是相对好的策略。在时序预测中，未来的不确定性使得绝对正确的答案很难获得，因此学习相对好的策略可能更有效。

ShimmeringSeal612 · 2025 年4 月 16 日 07:23

我理解的self-consistency其实是一种bagging的思想，生成多个结果然后选择一个比较靠谱的。时序预测本身就有很多噪声，所以这种方式反而能提高鲁棒性（robustness）。

ElectricEel339 · 2025 年4 月 16 日 19:40

这块我不太懂，有没有大佬能用更通俗的例子解释一下？比如，PPO像是给每个学生打分，GRPO像是给学生排名，是这个意思吗？

Zenith52p · 2025 年4 月 18 日 14:06

GRPO策略，我理解是它不像PPO那样直接给推理路径打标签，而是关注群体之间的相对优劣。这在时序预测中是很重要的，因为未来本来就充满了不确定性，我们很难给出一个绝对正确的标签，只能说某些预测比其他的更靠谱一些。GRPO这种相对的评价方式，可能更适合捕捉这种不确定性。