LLM能否理解时间序列异常？ICLR 2025最新研究

DatapiTHU · 2025 年4 月 2 日 13:47

ICLR 2025论文揭示：LLM在时间序列异常检测中，视觉理解优于文本，且不依赖重复偏差或算术能力。但对复杂异常的理解仍有局限。

原文标题：ICLR 2025 | LLMs 能够理解时间序列异常吗？

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247655030&idx=1&sn=87c1e432f92df4905acaf07a9402030a&

冷月清谈：

本文介绍了一篇ICLR 2025的论文，探讨了大型语言模型（LLMs）在时间序列异常检测中的能力。研究重点关注零样本和少样本场景，通过一系列实验，挑战了关于LLMs时间序列理解的现有假设。研究表明，LLMs将时间序列作为图像理解的效果优于作为文本理解，且当被提示进行显式的时间序列分析推理时，性能并未提升。此外，LLMs对时间序列的理解并非源于其重复偏差或算术能力，不同LLMs的行为和性能也存在显著差异。这项研究首次全面分析了当代LLMs在时间序列异常检测方面的能力，结果表明LLMs能够理解简单的时间序列异常，但对于更微妙的现实世界异常，尚无证据表明它们能够有效理解。

怜星夜思：

1、文章提到LLMs在处理时间序列图像时比处理文本数据表现更好，这是否意味着在时间序列分析中，数据可视化比数据本身更重要？未来我们是否应该更加注重数据的可视化呈现，而非仅仅依赖原始数据？
2、文章中提到LLMs在处理较短的时间序列时表现更好。在实际应用中，我们应该如何权衡时间序列的长度和LLMs的性能？是应该对时间序列进行降采样，还是应该尝试优化LLMs以处理更长的序列？
3、文章否定了LLMs的重复偏差和算术能力是其理解时间序列异常的关键因素。那么，LLMs究竟是如何理解时间序列的？它们可能依赖于哪些我们尚未发现的其他机制？

原文内容

来源：时序人‍‍‍‍
本文约4600字，建议阅读10+分钟
本文介绍一篇 ICLR 2025 中的工作，该工作旨在调查大型语言模型（LLMs）是否能够理解并检测时间序列数据中的异常，重点关注零样本和少样本场景。

受时间序列预测研究中关于 LLMs 行为的猜想的启发，研究者针对 LLMs 在时间序列异常检测方面的能力提出了关键假设。研究表明：(1) LLMs 将时间序列作为图像理解的效果优于作为文本理解；(2) 当被提示进行显式的时间序列分析推理时，LLMs 并未表现出性能提升；(3) 与普遍观点相反，LLMs 对时间序列的理解并非源于其重复偏差或算术能力；(4) 在时间序列分析中，不同 LLMs 的行为和性能存在显著差异。

本研究首次全面分析了当代 LLMs 在时间序列异常检测方面的能力。结果表明，虽然 LLMs 能够理解简单的时间序列异常，但研究者并没有证据表明它们能够理解更微妙的现实世界中的异常。

【论文标题】

CAN LLMS UNDERSTAND TIME SERIES ANOMALIES?

【论文地址】

https://arxiv.org/abs/2410.05440

【论文源码】

https://github.com/rose-stl-lab/anomllm

论文概述

LLMs 在时间序列预测中的显著进展使其被应用于多个领域，但在时间序列分析中的有效性仍存在争议。虽然一些研究人员认为 LLMs 可以利用其预训练知识来理解时间序列模式，但其他研究人员认为简单的模型可以与 LLMs 相匹配甚至超越它们。这种争议引发了以下根本性问题：LLMs 是否真正理解时间序列？

要回答这个问题，必须超越模型的预测性能。预测通常依赖于均方误差（MSE）等指标，这些指标可能会掩盖模型对时间序列动态的深层理解。一个仅输出接近常数的模型可能仍然能够获得可接受的 MSE，但这并不能揭示其对模式的解释能力。将重点转向异常检测会改变游戏规则：它迫使 LLMs 识别出不规律的行为，从而测试它们是否真正理解底层模式，而不仅仅是如何外推平均值。

本文首次全面研究了 LLMs 在时间序列异常检测中的能力。研究者专注于最先进的 LLMs 和多模态 LLMs（M-LLMs），并在受控条件下针对不同类型的异常进行了测试。实验评估策略包括多模态输入（时间序列的文本和视觉表示）、各种提示技巧以及结构化输出格式，结果通过亲和力 F1 分数进行量化评估。研究者提供了实证证据来挑战关于 LLMs 时间序列理解的现有假设。该研究发现并揭示了 LLMs 在时间序列分析中的几个令人惊讶的方面，包括：

视觉优势：与文本表示相比，LLMs 在处理时间序列图像时表现更好。
有限推理能力：在分析时间序列时，LLMs 不会从明确的推理提示中受益。当被提示解释其推理过程时，其表现通常会下降。
替代处理机制：与普遍观点相反，LLMs 对时间序列的理解并非源于其重复偏差或算术能力，这挑战了关于这些模型如何处理数值数据的常见假设。
模型异质性：不同 LLM 架构在时间序列理解和异常检测能力上存在显著差异，这突出了模型选择的重要性。

时序异常检测概述

01 异常定义‍

时间序列异常检测的目标是识别出偏离正常模式的数据点。具体定义如下：

1. 时间序列的表示：

时间序列 X:={x1,x2,…,xT} 是在固定时间间隔内收集的数据点，其中 xt 是时间 t 的特征标量或向量，T 是总时间点数。

2. 异常的定义：

生成函数：假设时间序列是确定性的，数据点 xt 如果偏离由生成函数 G 预测的值超过阈值 δ，则被认为是异常：

条件概率：假设时间序列是随机的，数据点 xt 如果其条件概率低于某个阈值 ϵ，则被认为是异常：

3. 异常检测算法的输出：

输出可以是二进制标签 Y:={y1,y2,…,yT}，其中 yt=1 表示异常，yt=0 表示正常。
输出异常分数 {s1,s2,…,sT}，其中分数越高表示越可能是异常。通过阈值 θ 可以将分数转换为二进制标签。

02 异常模式分类‍

时间序列预测和异常检测在任务定义上存在相似性，都依赖于对时间序列模式的外推。具体如下：

1. 时间序列预测：

确定性预测：学习生成函数 G。
概率性预测：学习条件概率函数 P。

2. 异常检测：

通过外推“正常”行为来识别偏离预期模式的点。这与预测任务类似，只是目标是识别异常而非预测未来值。

3. LLMs 的应用：

LLMs 在时间序列预测中的零样本外推能力被广泛研究，这些研究的假设可以扩展到异常检测任务中。例如，LLMs 的自回归生成能力与时间序列步骤的外推相似，这为将 LLMs 应用于异常检测提供了理论基础。

图1：不同异常类型的时间序列示例，异常区域用红色高亮显示

LLMs对时序的理解

01 提出假设‍

为了系统地研究 LLMs 在时间序列异常检测中的表现，研究者提出了以下七个假设，这些假设涵盖了 LLMs 的推理路径和偏差：

假设1：链式思考推理

LLMs 不会从逐步推理中受益。即在分析时间序列数据时，明确的推理提示（如“让我们一步一步思考”）不会提升 LLMs 的性能，甚至可能导致性能下降。

假设2：重复偏差

LLMs 的重复偏差与其识别周期性结构的能力相关。如果 LLMs 依赖于重复的模式来识别周期性异常，那么在引入微小噪声后，其性能应该会显著下降。

假设3：算术能力

LLMs 的算术能力（如加法和乘法）与其外推线性和指数趋势的能力相关。如果 LLMs 依赖算术能力来识别趋势异常，那么在削弱其算术能力后，其性能应该会下降。

假设4：视觉推理

时间序列异常作为图像比作为文本更容易被 LLMs 检测。这可能是因为人类分析师通常通过视觉方式检测时间序列异常，而多模态 LLMs（M-LLMs）在视觉任务上表现出色。

假设5：视觉感知偏差

LLMs 的异常检测能力受到人类感知偏差的限制。例如，人类在检测加速变化时比检测趋势反转更困难，如果 LLMs 表现出类似的感知偏差，那么它们在检测加速异常时的表现应该比检测趋势反转更差。

假设6：长文本上下文偏差

LLMs 在处理较短时间序列时表现更好，即使这意味着信息丢失。这可能是因为 LLMs 在处理长序列时存在困难，尤其是在需要处理大量时间步长时。

假设7：模型家族一致性

LLMs 对时间序列的理解在不同模型家族之间是一致的。如果这一假设成立，那么在某些模型上观察到的现象应该在其他模型上也能复现。

02 提示策略‍

为了验证上述假设，研究者设计了多种提示策略，以测试LLMs在不同条件下的表现：

1. 零样本和少样本学习：

零样本学习：LLMs 在没有任何标注样本的情况下进行异常检测。

少样本学习：LLMs 使用少量标注样本进行学习，以提高检测性能。

2. 链式思考：

通过逐步推理的方式引导 LLMs 进行异常检测。例如，提示 LLMs 描述时间序列的一般模式，识别偏离模式的点，并判断这些偏离是否构成异常。

3. 输入表示：

文本表示：将时间序列数据以文本形式输入 LLMs，包括原始数值、CSV 格式、统计信息前缀（如均值、中位数、趋势）和按位表示（将浮点数拆分为单独的数字）。
视觉表示：将时间序列数据以图像形式输入多模态 LLMs，利用其视觉理解能力。

4. 输出格式：

要求 LLMs 以 JSON 格式输出异常范围，例如 [{"start": 10, "end": 25}, {"start": 310, "end": 320}]。这种格式便于与真实标签进行比较，并进行量化评估。

LLMs对时序的理解

01 实验设置‍

1. 模型选择

实验使用了四种最先进的多模态大语言模型（M-LLMs），包括：

Qwen-VL-Chat：阿里巴巴云开发的高性能量子语言模型，支持文本-图像对话任务。
InternVL2-Llama3-76B：开源的多模态 LLM，结合了高质量的双语数据集和强大的视觉编码器。
GPT-4o-mini：OpenAI 开发的成本效益较高的小型版本 GPT-4o，支持文本和视觉输入。
Gemini-1.5-Flash：谷歌开发的快速多模态模型，优化了高容量和高频任务。

这些模型涵盖了不同的架构（如Qwen、LLaMA、Gemini、GPT），以验证模型架构对时间序列理解的影响。

2. 数据集构建

为了测试不同类型的异常，研究者合成了以下四种主要数据集：

点异常（Point Anomalies）：在周期性正弦波中插入噪声和不可预测的偏差。
范围异常（Range Anomalies）：在高斯噪声中插入突然的尖峰。
趋势异常（Trend Anomalies）：在缓慢增加的趋势中插入加速或反转的趋势。
频率异常（Frequency Anomalies）：在周期性正弦波中插入频率变化。

此外，还添加了噪声版本的数据集以测试假设2（重复偏差）和假设5（视觉感知偏差）。所有数据集均包含400个时间序列，每个序列有1000个样本点。

3. 评估指标

由于 LLMs 输出的是离散的异常区间，而不是连续的异常分数，因此研究者使用了以下评估指标：

精确率（Precision）、召回率（Recall）和 F1分数：这些指标将时间序列视为离散点的集合，但忽略了时间顺序。
亲和力精确率（Affinity Precision）和亲和力召回率（Affinity Recall）：这些指标考虑了时间序列的时间顺序，更适合评估异常检测任务。最终的评估指标是亲和力F1分数（Affinity F1），它是亲和力精确率和亲和力召回率的调和平均值。

图2：超出范围异常的异常检测结果示例。

4. 基线方法

为了验证 LLMs 的有效性，研究者使用了两种简单的基线方法进行对比：

隔离森林（Isolation Forest）：一种基于树的异常检测算法。
阈值化方法（Thresholding）：将时间序列的顶部2%和底部2%的值视为异常。

02 实验结果‍

实验结果验证了前文提出的假设，并揭示了 LLMs 在时间序列异常检测中的表现和局限性。

假设1：链式思考推理

实验发现，当明确使用链式思考（CoT）提示时，LLMs 的异常检测性能在所有模型和异常类型中均显著下降。这表明LLMs在时间序列分析中可能并不依赖于逐步推理，而是采用了其他机制。

图3：反射性（诱导推理的提示）/反思性（直接要求答案的提示），每种模式下得分最高的三个Affi-F1提示变体

假设2：重复偏差

在引入噪声后，文本和视觉输入的性能下降幅度相似，且文本性能的下降并不显著。这表明 LLMs 识别周期性异常的能力并非源于其重复偏差，而是可能依赖于其他机制。

图4：清洁数据（原始时间序列）/噪声数据（注入最小噪声的时间序列），每个噪声水平下得分最高的三个Affi-F1变体

假设3：算术能力

通过削弱 LLMs 的算术能力（例如，通过上下文学习使其在加法任务中表现较差），实验发现其异常检测性能并未显著下降。这表明 LLMs 的异常检测能力与其算术能力无关。

图5：计算（包含正确算术示例的提示）/计算障碍（包含错误示例的提示），每种模式下得分最高的三个Affi-F1变体

假设4：视觉推理

实验结果表明，多模态 LLMs 在处理时间序列图像时的表现显著优于处理文本数据的 LLMs。这与人类分析师通过视觉方式检测异常的偏好一致。

图6：视觉（包含可视化时间序列的提示）/文本（原始数值提示），每种模态下得分最高的三个Affi-F1变体

假设5：视觉感知偏差

通过设计难以被人类视觉检测到的“平坦趋势”异常，实验发现 LLMs 的性能与常规趋势异常数据集相似。这表明 LLMs 的异常检测能力并不受人类视觉感知偏差的限制。

图8：平稳趋势（上面已给出示例）/趋势（趋势在异常期间可能会反转），每个数据集下得分最高的三个Affi-F1变体

假设6：长文本上下文偏差

实验通过将时间序列从1000个时间步长缩短到300个时间步长，发现 LLMs 的性能显著提升。这表明 LLMs 在处理较短时间序列时表现更好，可能是因为长序列增加了模型的处理负担。

图7：子采样（时间序列被子采样以缩短）/原始数据，0次（0-shot）原始文本与30%文本对比

假设7：模型架构偏差

不同 LLM 架构在时间序列异常检测中的表现存在显著差异，即假设7被否定了。例如，GPT-4o-mini 在视觉输入上的表现优于文本输入，而 Qwen 在视觉输入上的表现优于文本输入。这表明 LLMs 在时间序列任务中的性能可能极大地依赖于训练数据、参数数量和微调策略等因素。

03 其他观察结果‍

文本表示方法

实验发现，没有一种文本表示方法在所有情况下都优于其他方法。例如，Qwen 仅在使用统计信息前缀（PaP）时表现非零，而其他模型则在不同表示方法下表现各异。

LLMs 的性能

在某些情况下，LLMs 的性能优于传统的隔离森林和阈值化方法，尤其是在点异常、范围异常和趋势异常数据集上。这表明 LLMs 在零样本时间序列异常检测中是一个合理的选择。

Token-per-Digit 表示

实验发现，Token-per-Digit（TPD）表示方法仅在某些情况下对 GPT-4o-mini 有效，而对其他模型无效。这表明 TPD 可能仅在特定条件下对某些模型有帮助。

编辑：黄继彦‍‍‍

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

SparklingRiver075 · 2025 年4 月 3 日 02:06

我个人的看法是，在确保关键信息不丢失的前提下，适当的降采样可以提高LLM的效率。另外，也可以尝试一些特征工程的方法，提取时间序列的关键特征，然后将这些特征输入到LLM中，这样可以减少输入序列的长度，同时保留重要的信息。

Cipher409q · 2025 年4 月 3 日 07:04

个人认为，可视化的确能帮助LLM更好地理解时间序列，但这并不代表原始数据就不重要了。打个比方，图像是精装修的房子，数据是毛坯房。没有毛坯房（原始数据）再好的装修（可视化）也没用。未来趋势应该是将两者结合，利用LLM的强大能力，从原始数据中提取特征，再通过可视化手段进行呈现，这样才能达到最佳效果。

GreenTurtle317 · 2025 年4 月 3 日 20:43

这个问题很有实际意义！我觉得这个问题没有绝对的答案，需要根据具体情况来权衡。如果时间序列的细节信息对异常检测至关重要，那么降采样可能会导致信息丢失。但如果时间序列过长导致LLM性能下降，那么降采样可能是一个可行的选择。此外，也可以考虑使用一些专门设计用于处理长序列的LLM架构。

Fluxion29d · 2025 年4 月 4 日 00:33

这个问题很有意思！我觉得不能简单地说可视化比数据本身更重要。图像的优势可能在于LLM更容易捕捉视觉模式，但这并不意味着原始数据不重要。好的可视化应该建立在对原始数据的深入理解之上，是为了更好地呈现数据中的信息。未来可能需要更多地探索如何结合数据和可视化的优势，让LLM更好地理解时间序列。

SilverWolf359 · 2025 年4 月 4 日 11:18

这个问题的答案可能隐藏在LLM的架构和训练方式中。或许LLM通过某种方式学习到了时间序列的抽象表示，就像我们人类可以一眼看出时间序列的趋势和周期性一样。未来的研究可以尝试对LLM的内部状态进行分析，以揭示其真正的工作机制。

Beacon26j · 2025 年4 月 4 日 15:36

这个问题问到了关键！既然不是重复偏差和算术能力，那LLM到底是怎么理解时间序列的呢？我觉得可能和LLM的注意力机制有关。注意力机制可以帮助LLM关注时间序列中的关键信息，从而更好地识别异常。此外，LLM的预训练数据也可能起到了重要作用，让LLM学习到了一些通用的时间序列模式。

Radiant43s · 2025 年4 月 5 日 08:37

这是一个值得深思的问题。从LLM的角度来看，图像可能更容易被理解，但这并不意味着在所有情况下可视化都优于原始数据。关键在于数据的呈现方式是否能够突出时间序列的特征，并帮助LLM更好地进行推理。未来的研究方向可以是探索更有效的可视化方法，或者设计能够直接处理原始数据的LLM。

IronKnight238 · 2025 年4 月 8 日 14:09

这的确是个tradeoff。降采样可能会丢失一些细节，但也能减轻LLM的负担。优化LLM以处理更长序列当然是更好的选择，但短期内可能更现实的做法是根据具体任务进行权衡。例如，对于需要高精度的时间序列，可以考虑分段处理，然后将结果进行整合。

Whisper51y · 2025 年4 月 9 日 03:50

我认为LLM可能隐式地学习到了时间序列的统计特征。虽然文章否定了算术能力，但LLM在预训练过程中肯定接触过大量的数值数据，这使得它能够捕捉到一些隐藏在数据中的统计规律。当然，这也仅仅是猜测，LLM的内部机制仍然是一个黑盒子。