LLM能否理解时间序列异常?ICLR 2025最新研究

ICLR 2025论文揭示:LLM在时间序列异常检测中,视觉理解优于文本,且不依赖重复偏差或算术能力。但对复杂异常的理解仍有局限。

原文标题:ICLR 2025 | LLMs 能够理解时间序列异常吗?

原文作者:数据派THU

冷月清谈:

本文介绍了一篇ICLR 2025的论文,探讨了大型语言模型(LLMs)在时间序列异常检测中的能力。研究重点关注零样本和少样本场景,通过一系列实验,挑战了关于LLMs时间序列理解的现有假设。研究表明,LLMs将时间序列作为图像理解的效果优于作为文本理解,且当被提示进行显式的时间序列分析推理时,性能并未提升。此外,LLMs对时间序列的理解并非源于其重复偏差或算术能力,不同LLMs的行为和性能也存在显著差异。这项研究首次全面分析了当代LLMs在时间序列异常检测方面的能力,结果表明LLMs能够理解简单的时间序列异常,但对于更微妙的现实世界异常,尚无证据表明它们能够有效理解。

怜星夜思:

1、文章提到LLMs在处理时间序列图像时比处理文本数据表现更好,这是否意味着在时间序列分析中,数据可视化比数据本身更重要?未来我们是否应该更加注重数据的可视化呈现,而非仅仅依赖原始数据?
2、文章中提到LLMs在处理较短的时间序列时表现更好。在实际应用中,我们应该如何权衡时间序列的长度和LLMs的性能?是应该对时间序列进行降采样,还是应该尝试优化LLMs以处理更长的序列?
3、文章否定了LLMs的重复偏差和算术能力是其理解时间序列异常的关键因素。那么,LLMs究竟是如何理解时间序列的?它们可能依赖于哪些我们尚未发现的其他机制?

原文内容

来源:时序人‍‍‍‍

本文约4600字,建议阅读10+分钟

本文介绍一篇 ICLR 2025 中的工作,该工作旨在调查大型语言模型(LLMs)是否能够理解并检测时间序列数据中的异常,重点关注零样本和少样本场景。


受时间序列预测研究中关于 LLMs 行为的猜想的启发,研究者针对 LLMs 在时间序列异常检测方面的能力提出了关键假设。研究表明:(1) LLMs 将时间序列作为图像理解的效果优于作为文本理解;(2) 当被提示进行显式的时间序列分析推理时,LLMs 并未表现出性能提升;(3) 与普遍观点相反,LLMs 对时间序列的理解并非源于其重复偏差或算术能力;(4) 在时间序列分析中,不同 LLMs 的行为和性能存在显著差异。

本研究首次全面分析了当代 LLMs 在时间序列异常检测方面的能力。结果表明,虽然 LLMs 能够理解简单的时间序列异常,但研究者并没有证据表明它们能够理解更微妙的现实世界中的异常。


【论文标题】

CAN LLMS UNDERSTAND TIME SERIES ANOMALIES?

【论文地址】

https://arxiv.org/abs/2410.05440

【论文源码】

https://github.com/rose-stl-lab/anomllm


论文概述

LLMs 在时间序列预测中的显著进展使其被应用于多个领域,但在时间序列分析中的有效性仍存在争议。虽然一些研究人员认为 LLMs 可以利用其预训练知识来理解时间序列模式,但其他研究人员认为简单的模型可以与 LLMs 相匹配甚至超越它们。这种争议引发了以下根本性问题:LLMs 是否真正理解时间序列?

要回答这个问题,必须超越模型的预测性能。预测通常依赖于均方误差(MSE)等指标,这些指标可能会掩盖模型对时间序列动态的深层理解。一个仅输出接近常数的模型可能仍然能够获得可接受的 MSE,但这并不能揭示其对模式的解释能力。将重点转向异常检测会改变游戏规则:它迫使 LLMs 识别出不规律的行为,从而测试它们是否真正理解底层模式,而不仅仅是如何外推平均值。

本文首次全面研究了 LLMs 在时间序列异常检测中的能力。研究者专注于最先进的 LLMs 和多模态 LLMs(M-LLMs),并在受控条件下针对不同类型的异常进行了测试。实验评估策略包括多模态输入(时间序列的文本和视觉表示)、各种提示技巧以及结构化输出格式,结果通过亲和力 F1 分数进行量化评估。研究者提供了实证证据来挑战关于 LLMs 时间序列理解的现有假设。该研究发现并揭示了 LLMs 在时间序列分析中的几个令人惊讶的方面,包括:

  • 视觉优势:与文本表示相比,LLMs 在处理时间序列图像时表现更好。
  • 有限推理能力:在分析时间序列时,LLMs 不会从明确的推理提示中受益。当被提示解释其推理过程时,其表现通常会下降。
  • 替代处理机制:与普遍观点相反,LLMs 对时间序列的理解并非源于其重复偏差或算术能力,这挑战了关于这些模型如何处理数值数据的常见假设。
  • 模型异质性:不同 LLM 架构在时间序列理解和异常检测能力上存在显著差异,这突出了模型选择的重要性。

时序异常检测概述

01 异常定义

时间序列异常检测的目标是识别出偏离正常模式的数据点。具体定义如下:

1. 时间序列的表示:

时间序列 X:={x1,x2,…,xT} 是在固定时间间隔内收集的数据点,其中 xt 是时间 t 的特征标量或向量,T 是总时间点数。

2. 异常的定义:

生成函数:假设时间序列是确定性的,数据点 xt 如果偏离由生成函数 G 预测的值超过阈值 δ,则被认为是异常:

Image

条件概率:假设时间序列是随机的,数据点 xt 如果其条件概率低于某个阈值 ϵ,则被认为是异常:

Image

3. 异常检测算法的输出:

  • 输出可以是二进制标签 Y:={y1,y2,…,yT},其中 yt=1 表示异常,yt=0 表示正常。
  • 输出异常分数 {s1,s2,…,sT},其中分数越高表示越可能是异常。通过阈值 θ 可以将分数转换为二进制标签。

02 异常模式分类

时间序列预测和异常检测在任务定义上存在相似性,都依赖于对时间序列模式的外推。具体如下:

1. 时间序列预测:
  • 确定性预测:学习生成函数 G。
  • 概率性预测:学习条件概率函数 P。

2. 异常检测:
通过外推“正常”行为来识别偏离预期模式的点。这与预测任务类似,只是目标是识别异常而非预测未来值。

3. LLMs 的应用:
LLMs 在时间序列预测中的零样本外推能力被广泛研究,这些研究的假设可以扩展到异常检测任务中。例如,LLMs 的自回归生成能力与时间序列步骤的外推相似,这为将 LLMs 应用于异常检测提供了理论基础。

图1:不同异常类型的时间序列示例,异常区域用红色高亮显示

LLMs对时序的理解

01 提出假设

为了系统地研究 LLMs 在时间序列异常检测中的表现,研究者提出了以下七个假设,这些假设涵盖了 LLMs 的推理路径和偏差:

  • 假设1:链式思考推理
LLMs 不会从逐步推理中受益。即在分析时间序列数据时,明确的推理提示(如“让我们一步一步思考”)不会提升 LLMs 的性能,甚至可能导致性能下降。

  • 假设2:重复偏差
LLMs 的重复偏差与其识别周期性结构的能力相关。如果 LLMs 依赖于重复的模式来识别周期性异常,那么在引入微小噪声后,其性能应该会显著下降。

  • 假设3:算术能力
LLMs 的算术能力(如加法和乘法)与其外推线性和指数趋势的能力相关。如果 LLMs 依赖算术能力来识别趋势异常,那么在削弱其算术能力后,其性能应该会下降。

  • 假设4:视觉推理
时间序列异常作为图像比作为文本更容易被 LLMs 检测。这可能是因为人类分析师通常通过视觉方式检测时间序列异常,而多模态 LLMs(M-LLMs)在视觉任务上表现出色。

  • 假设5:视觉感知偏差
LLMs 的异常检测能力受到人类感知偏差的限制。例如,人类在检测加速变化时比检测趋势反转更困难,如果 LLMs 表现出类似的感知偏差,那么它们在检测加速异常时的表现应该比检测趋势反转更差。

  • 假设6:长文本上下文偏差
LLMs 在处理较短时间序列时表现更好,即使这意味着信息丢失。这可能是因为 LLMs 在处理长序列时存在困难,尤其是在需要处理大量时间步长时。

  • 假设7:模型家族一致性
LLMs 对时间序列的理解在不同模型家族之间是一致的。如果这一假设成立,那么在某些模型上观察到的现象应该在其他模型上也能复现。

02 提示策略

为了验证上述假设,研究者设计了多种提示策略,以测试LLMs在不同条件下的表现:

1. 零样本和少样本学习:
  • 零样本学习:LLMs 在没有任何标注样本的情况下进行异常检测。
  • 少样本学习:LLMs 使用少量标注样本进行学习,以提高检测性能。

2. 链式思考:
通过逐步推理的方式引导 LLMs 进行异常检测。例如,提示 LLMs 描述时间序列的一般模式,识别偏离模式的点,并判断这些偏离是否构成异常。

3. 输入表示:
  • 文本表示:将时间序列数据以文本形式输入 LLMs,包括原始数值、CSV 格式、统计信息前缀(如均值、中位数、趋势)和按位表示(将浮点数拆分为单独的数字)。
  • 视觉表示:将时间序列数据以图像形式输入多模态 LLMs,利用其视觉理解能力。

4. 输出格式:
要求 LLMs 以 JSON 格式输出异常范围,例如 [{"start": 10, "end": 25}, {"start": 310, "end": 320}]。这种格式便于与真实标签进行比较,并进行量化评估。

LLMs对时序的理解

01 实验设置

1. 模型选择

实验使用了四种最先进的多模态大语言模型(M-LLMs),包括:

  • Qwen-VL-Chat:阿里巴巴云开发的高性能量子语言模型,支持文本-图像对话任务。
  • InternVL2-Llama3-76B:开源的多模态 LLM,结合了高质量的双语数据集和强大的视觉编码器。
  • GPT-4o-mini:OpenAI 开发的成本效益较高的小型版本 GPT-4o,支持文本和视觉输入。
  • Gemini-1.5-Flash:谷歌开发的快速多模态模型,优化了高容量和高频任务。

这些模型涵盖了不同的架构(如Qwen、LLaMA、Gemini、GPT),以验证模型架构对时间序列理解的影响。

2. 数据集构建

为了测试不同类型的异常,研究者合成了以下四种主要数据集:

  • 点异常(Point Anomalies):在周期性正弦波中插入噪声和不可预测的偏差。
  • 范围异常(Range Anomalies):在高斯噪声中插入突然的尖峰。
  • 趋势异常(Trend Anomalies):在缓慢增加的趋势中插入加速或反转的趋势。
  • 频率异常(Frequency Anomalies):在周期性正弦波中插入频率变化。

此外,还添加了噪声版本的数据集以测试假设2(重复偏差)和假设5(视觉感知偏差)。所有数据集均包含400个时间序列,每个序列有1000个样本点。

3. 评估指标

由于 LLMs 输出的是离散的异常区间,而不是连续的异常分数,因此研究者使用了以下评估指标:

  • 精确率(Precision)、召回率(Recall) 和 F1分数:这些指标将时间序列视为离散点的集合,但忽略了时间顺序。
  • 亲和力精确率(Affinity Precision) 和 亲和力召回率(Affinity Recall):这些指标考虑了时间序列的时间顺序,更适合评估异常检测任务。最终的评估指标是亲和力F1分数(Affinity F1),它是亲和力精确率和亲和力召回率的调和平均值。

图2:超出范围异常的异常检测结果示例。

4. 基线方法

为了验证 LLMs 的有效性,研究者使用了两种简单的基线方法进行对比:

  • 隔离森林(Isolation Forest):一种基于树的异常检测算法。
  • 阈值化方法(Thresholding):将时间序列的顶部2%和底部2%的值视为异常。

02 实验结果

实验结果验证了前文提出的假设,并揭示了 LLMs 在时间序列异常检测中的表现和局限性。

  • 假设1:链式思考推理
实验发现,当明确使用链式思考(CoT)提示时,LLMs 的异常检测性能在所有模型和异常类型中均显著下降。这表明LLMs在时间序列分析中可能并不依赖于逐步推理,而是采用了其他机制。

图3:反射性(诱导推理的提示)/反思性(直接要求答案的提示),每种模式下得分最高的三个Affi-F1提示变体

  • 假设2:重复偏差
在引入噪声后,文本和视觉输入的性能下降幅度相似,且文本性能的下降并不显著。这表明 LLMs 识别周期性异常的能力并非源于其重复偏差,而是可能依赖于其他机制。

图4:清洁数据(原始时间序列)/噪声数据(注入最小噪声的时间序列),每个噪声水平下得分最高的三个Affi-F1变体

  • 假设3:算术能力
通过削弱 LLMs 的算术能力(例如,通过上下文学习使其在加法任务中表现较差),实验发现其异常检测性能并未显著下降。这表明 LLMs 的异常检测能力与其算术能力无关。

图5:计算(包含正确算术示例的提示)/计算障碍(包含错误示例的提示),每种模式下得分最高的三个Affi-F1变体

  • 假设4:视觉推理
实验结果表明,多模态 LLMs 在处理时间序列图像时的表现显著优于处理文本数据的 LLMs。这与人类分析师通过视觉方式检测异常的偏好一致。

图6:视觉(包含可视化时间序列的提示)/文本(原始数值提示),每种模态下得分最高的三个Affi-F1变体

  • 假设5:视觉感知偏差
通过设计难以被人类视觉检测到的“平坦趋势”异常,实验发现 LLMs 的性能与常规趋势异常数据集相似。这表明 LLMs 的异常检测能力并不受人类视觉感知偏差的限制。

图8:平稳趋势(上面已给出示例)/趋势(趋势在异常期间可能会反转),每个数据集下得分最高的三个Affi-F1变体

  • 假设6:长文本上下文偏差
实验通过将时间序列从1000个时间步长缩短到300个时间步长,发现 LLMs 的性能显著提升。这表明 LLMs 在处理较短时间序列时表现更好,可能是因为长序列增加了模型的处理负担。

图7:子采样(时间序列被子采样以缩短)/原始数据,0次(0-shot)原始文本与30%文本对比

  • 假设7:模型架构偏差
不同 LLM 架构在时间序列异常检测中的表现存在显著差异,即假设7被否定了。例如,GPT-4o-mini 在视觉输入上的表现优于文本输入,而 Qwen 在视觉输入上的表现优于文本输入。这表明 LLMs 在时间序列任务中的性能可能极大地依赖于训练数据、参数数量和微调策略等因素。

03 其他观察结果

  • 文本表示方法
实验发现,没有一种文本表示方法在所有情况下都优于其他方法。例如,Qwen 仅在使用统计信息前缀(PaP)时表现非零,而其他模型则在不同表示方法下表现各异。

  • LLMs 的性能
在某些情况下,LLMs 的性能优于传统的隔离森林和阈值化方法,尤其是在点异常、范围异常和趋势异常数据集上。这表明 LLMs 在零样本时间序列异常检测中是一个合理的选择。

  • Token-per-Digit 表示
实验发现,Token-per-Digit(TPD)表示方法仅在某些情况下对 GPT-4o-mini 有效,而对其他模型无效。这表明 TPD 可能仅在特定条件下对某些模型有帮助。


编辑:黄继彦‍‍‍



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我个人的看法是,在确保关键信息不丢失的前提下,适当的降采样可以提高LLM的效率。另外,也可以尝试一些特征工程的方法,提取时间序列的关键特征,然后将这些特征输入到LLM中,这样可以减少输入序列的长度,同时保留重要的信息。

个人认为,可视化的确能帮助LLM更好地理解时间序列,但这并不代表原始数据就不重要了。打个比方,图像是精装修的房子,数据是毛坯房。没有毛坯房(原始数据)再好的装修(可视化)也没用。未来趋势应该是将两者结合,利用LLM的强大能力,从原始数据中提取特征,再通过可视化手段进行呈现,这样才能达到最佳效果。

这个问题很有实际意义!我觉得这个问题没有绝对的答案,需要根据具体情况来权衡。如果时间序列的细节信息对异常检测至关重要,那么降采样可能会导致信息丢失。但如果时间序列过长导致LLM性能下降,那么降采样可能是一个可行的选择。此外,也可以考虑使用一些专门设计用于处理长序列的LLM架构。

这个问题很有意思!我觉得不能简单地说可视化比数据本身更重要。图像的优势可能在于LLM更容易捕捉视觉模式,但这并不意味着原始数据不重要。好的可视化应该建立在对原始数据的深入理解之上,是为了更好地呈现数据中的信息。未来可能需要更多地探索如何结合数据和可视化的优势,让LLM更好地理解时间序列。

这个问题的答案可能隐藏在LLM的架构和训练方式中。或许LLM通过某种方式学习到了时间序列的抽象表示,就像我们人类可以一眼看出时间序列的趋势和周期性一样。未来的研究可以尝试对LLM的内部状态进行分析,以揭示其真正的工作机制。

这个问题问到了关键!既然不是重复偏差和算术能力,那LLM到底是怎么理解时间序列的呢?我觉得可能和LLM的注意力机制有关。注意力机制可以帮助LLM关注时间序列中的关键信息,从而更好地识别异常。此外,LLM的预训练数据也可能起到了重要作用,让LLM学习到了一些通用的时间序列模式。

这是一个值得深思的问题。从LLM的角度来看,图像可能更容易被理解,但这并不意味着在所有情况下可视化都优于原始数据。关键在于数据的呈现方式是否能够突出时间序列的特征,并帮助LLM更好地进行推理。未来的研究方向可以是探索更有效的可视化方法,或者设计能够直接处理原始数据的LLM。

这的确是个tradeoff。降采样可能会丢失一些细节,但也能减轻LLM的负担。优化LLM以处理更长序列当然是更好的选择,但短期内可能更现实的做法是根据具体任务进行权衡。例如,对于需要高精度的时间序列,可以考虑分段处理,然后将结果进行整合。

我认为LLM可能隐式地学习到了时间序列的统计特征。虽然文章否定了算术能力,但LLM在预训练过程中肯定接触过大量的数值数据,这使得它能够捕捉到一些隐藏在数据中的统计规律。当然,这也仅仅是猜测,LLM的内部机制仍然是一个黑盒子。