本文综述了视觉模型在时间序列分析中的应用,探讨了时间序列图像转换与建模方法,并展望了该领域未来的发展方向。
原文标题:综述 | 利用视觉模型进行时间序列分析
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章提到了大型视觉模型(LVMs)在时间序列分析中的优势,例如强大的特征提取能力和迁移学习能力。你认为LVMs在哪些时间序列分析任务中最有潜力?又有哪些局限性需要克服?
3、文章提到了多模态时间序列模型与代理,并提出可以用于IT运维(AIOps)中的根因分析。你认为将视觉信息融入AIOps,除了根因分析,还有哪些潜在的应用场景?
原文内容
本综述讨论了视觉模型在时间序列分析方面相较于大语言模型的优势。它提供了一个全面且深入的概述,包括详细的分类方法,回答了关键的研究问题,即如何将时间序列编码为图像,以及如何为各种任务对成像后的时间序列进行建模。此外,还探讨了该框架中涉及的预处理和后处理步骤的挑战,并概述了未来利用视觉模型进一步推进时间序列分析的方向。
论文概述
时间序列分析经历了从传统自回归模型到深度学习模型(如卷积神经网络,CNNs)、Transformer 和 LLMs 的发展。近年来,随着语言领域中序列建模技术的进展,研究者开始将注意力转向利用 Transformer 和 LLMs 进行时间序列建模。然而,LLMs 在处理连续时间序列时存在局限性,例如与离散标记的不匹配、上下文长度限制以及高 API 成本等问题。
与此同时,LVMs 在图像领域取得了巨大成功,其优势在于能够捕捉图像中的序列模式(如趋势、周期和峰值)。时间序列可以通过多种方式转换为图像(如折线图、热图、频谱图等),这些图像为时间序列分析提供了更直观的视角。与 LLMs 相比,大型视觉模型在时间序列建模中具有以下优势:
-
图像与时间序列的固有关系使其更适合捕捉连续序列模式。
-
某些成像方法可以自然地表示多变量时间序,从而显式编码变量间的相关性。
-
LVMs 在处理图像化时间序列时对提示更友好,且 API 成本更低。
-
LVMs 与 LLMs 的结合为多模态时间序列分析提供了新的可能性。
尽管 LVMs 在时间序列分析中的潜力逐渐被挖掘,但目前尚缺乏对相关工作的全面综述。本文旨在填补这一空白,提出了一个双重视角的分类框架:时间序列到图像的转换方法和图像化时间序列的建模方法。此外,该综述还讨论了预处理和后处理的挑战,并展望了未来的研究方向。
图1:利用视觉模型进行时间序列分析的一般流程。红色框表示本调查中使用的两种分类视角。虚线框表示可选的、根据任务而定的步骤
时序到图像的转换
本节总结了将时间序列成像的方法以及将这些方法扩展以编码多变量时间序列的方法。
图2:以电力基准数据集[Nie等人,2023]中的一个样本(长度=336)为例,展示了时间序列成像的不同方法
表2:将时间序列转换为图像的五种主要方法概述。TS-Type表示时间序列的类型。
-
通道独立性假设:对每个变量单独建模。
-
多通道图像:将d个变量的图像堆叠成一个d通道的图像,但这种方法可能不适用于预训练的 LVM,因为它们通常需要3通道的RGB输入。
-
线图:使用 CNN 对线图进行分类或预测。例如,ViTST 使用 ResNet 对线图进行时间序列分类。
-
热图:将热图作为输入,使用 CNN 进行多变量时间序列的预测或异常检测。
-
频谱图:通过 CNN 对频谱图进行分析,适用于音频信号等时间序列的分类或预测任务。
-
GAF 和 RP:使用 CNN 对 GAF 或 RP 图像进行建模,适用于时间序列分类和预测。
-
预训练与微调:许多工作使用预训练的 LVMs(如 MAE、DeiT 等)进行微调,以适应特定的时间序列任务。例如,VisionTS 通过微调 MAE 实现了时间序列预测。
-
自监督学习:一些工作探索了基于自监督学习的预训练方法,如 SSAST 通过掩码频谱图 patch 预测任务对 ViT 进行预训练。
-
零样本学习:ViTime 通过预训练 ViT 生成大量的线图,并在零样本任务中表现出色。
-
强大的特征提取能力:LVMs 能够捕捉图像中的复杂模式,适用于时间序列的长期依赖建模。
-
迁移学习能力:预训练的 LVMs 可以迁移到多种时间序列任务,减少训练成本。
-
计算资源需求:LVMs 通常需要大量的计算资源进行训练和微调。
-
输入图像的预处理:需要将时间序列图像化后调整为预训练模型的输入格式(如图像大小、通道数等)。
-
提示学习:通过将时间序列的图像表示(如线图、热图)和文本指令(如任务描述)组合成提示,输入到 LMMs 中。例如,InsightMiner 使用 LLaVA 生成描述时间序列趋势的文本。
-
零样本学习和少样本学习:一些工作评估了 LMMs 在时间序列分类、异常检测等任务中的零样本或少样本性能。
-
多模态融合:能够同时利用视觉和语言信息,提供更丰富的上下文。
-
灵活性:通过提示设计,可以快速适应不同的任务和数据。
-
提示设计的复杂性:需要精心设计提示以引导模型输出正确的结果。
-
模型的可控性:LMMs 的输出可能不够稳定,需要进一步优化。
-
分类任务:使用全连接层(FC)或多层感知机(MLP)将视觉模型的特征嵌入转换为类别概率分布。
-
预测任务:有两种主要方法:
-
多模态任务:在 LMMs 中,通常通过提示直接生成文本结果,避免使用任务特定头。
-
频谱图:通过标准化频谱图的像素值,使其具有可控的均值和标准差。
-
热图:由于热图直接基于时间序列的原始值,可以使用实例归一化(Instance Normalization, IN)对时间序列进行预处理,类似于标准化操作。
-
线图:需要调整y轴的范围,并可能需要去除极端值以避免图像中的异常点。
-
GAF:需要对输入进行 min-max 归一化,因为 GAF 将时间序列值映射到[0, 1]区间以转换为极坐标。
-
RP:通常不需要归一化,因为 RP 在计算过程中会使用ℓ2范数,归一化可能会在阈值化步骤中丢失信息。
-
调整通道数:
-
调整图像大小:
-
线图:恢复较为复杂,需要定位图像中代表时间序列的像素,并将其映射回原始值。可以通过网格化的线图来实现,这些线图具有明确的恢复函数。
-
热图:恢复较为直接,因为热图直接存储了时间序列的预测值。
-
频谱图:目前在恢复任务中较少使用,但可以通过MLP头直接预测时间序列值。
-
GAF:支持通过逆映射从极坐标恢复到归一化的时间序列。
-
RP:由于 RP 在阈值化过程中会丢失时间序列信息,因此不适合用于需要恢复的任务,除非使用专门的预测头。