ICLR 2025:语境对齐——让大模型更懂时间序列,性能提升开销更低

ICLR 2025:语境对齐技术提升大模型对时间序列数据的理解,性能更优,开销更低。

原文标题:ICLR 2025 | 让大模型更懂时序的语境对齐来了!性能更优开销更低

原文作者:机器之心

冷月清谈:

来自东方理工大学、香港理工大学和上海交通大学的研究团队提出了一种新的模态对齐范式——语境对齐(Context-Alignment),旨在提升大语言模型对时间序列数据的理解能力。该方法被ICLR 2025会议接收。

以往研究通过词对齐的方式,将时间序列数据的token嵌入与词库中的词汇嵌入对齐,帮助大语言模型理解时序数据。然而,这种方法计算开销大,效果有限。

本文指出,大语言模型的能力源于其对语言逻辑和结构的理解。因此,作者提出语境对齐,将时间序列数据融入自然语言语境,使模型将其视为一个整体的语言成分。

为了实现语境对齐,作者构建了双尺度图结构,包括细粒度图结构和粗粒度图结构。细粒度图结构保留每个token的独立性和具体信息,而粗粒度图结构将连续的token映射为一个节点,表示整体性。通过图卷积网络和可学习的交互机制,实现信息在不同粒度节点间的传递和更新。

基于双尺度图结构,作者提出了两种具体方法:VCA和FSCA。VCA直接将时序数据和prompt作为输入,而FSCA结合了Few-Shot prompting技术,通过引入示例来提升模型的理解能力。

实验结果表明,FSCA在长期预测、短期预测、Few-Shot预测、Zero-Shot预测以及分类任务中均取得了优异的性能,尤其在Few-Shot和Zero-Shot预测中表现突出。此外,FSCA的计算效率也显著高于以往方法。

怜星夜思:

1、FSCA 方法在 Few-Shot 和 Zero-Shot 场景下表现优异,这是否意味着未来可以减少对大量标注数据的依赖?
2、相比于传统的词对齐方法,语境对齐的优势主要体现在哪些方面?除了性能和计算效率,还有其他潜在的优势吗?
3、语境对齐的思想是否可以迁移到其他领域,例如图像识别或自然语言处理的其他任务?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


大语言模型在迅速发展的同时,也展现了其在下游任务中的卓越性能,这主要得益于丰富多样的大型语料训练库,使大语言模型掌握了一定的跨领域、跨任务的知识。

近两年,越来越多的研究工作利用预训练的大语言模型来构建时间序列分析模型。通过微调大语言模型,使其能够理解陌生的时序数据,进而激活其在时序分析任务中的能力。

近期,来自东方理工大学、香港理工大学和上海交通大学的研究团队提出了一种新的模态对齐范式 —— 语境对齐(Context-Alignment)。该方法将时间序列数据对齐到大语言模型熟悉的语言环境中,帮助模型更好地理解时间序列,从而激活其在时序分析方面的能力。该论文已被 ICLR 2025 会议接收。


  • 论文标题:Context-Alignment: Activating and Enhancing LLMs Capabilities in Time Series
  • 论文链接:https://openreview.net/forum?id=syC2764fPc
  • 代码链接:https://github.com/tokaka22/ICLR25-FSCA

以往的微调方法往往依赖于一个词库,通过各种方式将时序数据的 token 嵌入与词库中的词汇(例如 rise、fall、periodic、short 等)的 token 嵌入进行对齐,也就是说将大语言模型陌生的时序数据嵌入转化为其熟悉的语言嵌入。此前研究希望通过这种「词对齐」的方式帮助大语言模型理解时序数据,进而激活其在时序分析上的能力。

然而,这种依赖词库的对齐方式通常需要较大的计算开销,且是否能有效地帮助大语言模型理解时序数据还有待商榷。

语境对齐(Context-Alignment)

本文指出,大语言模型在处理语言时的能力更多源于其对语言逻辑和结构的深刻理解,而不仅仅是对词汇模式的表面对齐。因此,作者认为,即使使用精准的词汇来表达冗长的时间序列数据,这种方式也只是大量词汇嵌入的堆叠,缺乏语言的逻辑和结构,使得大语言模型难以真正理解其中的含义。

本文中,作者基于语言学中关于逻辑结构的层次关系,提出了语境对齐范式(Context-Alignment)。他们希望将时间序列数据融入自然语言的语境中,使大语言模型能够将时序数据整体视为一个语言成分,并通过上下文自主地理解时间序列

双尺度语境对齐图结构

考虑到图结构往往可以很好地表达逻辑和结构的关系,作者在时序数据和自然语言 prompt 的多模态输入上构建了双尺度图结构,以实现语境对齐。

具体来说,作者利用双尺度的图节点来描述语言结构的层次划分,在保证信息不丢失的前提下,将冗长的时序数据表达为一个整体,这就好像英语中的宾语从句,从句整体充当了一个语言成分,冗长的时序数据也应该被视为输入中的一个整体成分。利用有向边表达时序和 prompt 输入之间的逻辑关系。从而将时序数据对齐到大语言模型熟悉的语境中。

双尺度图结构包括细粒度图结构粗粒度图结构,其中:

  • 细粒度图结构将每个 token 视为一个节点,强调 token 之间的相互独立性,保留时序的具体信息。通过两个线性层(如图 1 中所示的

    ),将连续且冗长的时序数据嵌入和 prompt 嵌入分别映射为两种粗粒度节点。

  • 粗粒度图结构将连续的、模态一致的 tokens 映射为一个节点,表示了模态的整体性。


根据 prompt 的内容,在粗粒度和细粒度图中构建表示逻辑关系的有向边(有向边表示信息的传递方向)。例如,当 prompt 为「predict future sequences using previous data」时,有向边由表示「previous data」的时序节点指向 prompt 节点,因为时序数据是 prompt 的信息来源。粗粒度有向边是细粒度有向边的简化。

双尺度图结构显式地体现了时序数据和自然语言 prompt 之间的语言层级结构和逻辑传递关系。粗粒度图结构和细粒度图结构在经过图卷积网络(GCN)对节点嵌入进行更新后,通过一个可学习的交互机制(根据图 1 中的和分配矩阵计算,参考原文公式 4),使粗粒度节点能够向细粒度节点传递更新后的信息,细粒度节点在完成自己的更新后整合来自粗粒度节点的信息。最后,粗粒度节点和细粒度节点嵌入将分别输入预训练的大语言模型。

就其效果而言,该双尺度图结构可以嵌入至大语言模型的任意层,并可多次使用,以强化大语言模型对语境对齐的记忆能力。

图 1 双尺度语境对齐图结构

VCA 和 FSCA

由于不同的 prompt 内容对应不同的逻辑结构关系,因此双尺度语境对齐图结构依赖于具体的 prompt 内容。作者提出了两种使用双尺度语境对齐图结构的具体方法。

1. Vanilla Context-Alignment(VCA)

VCA 是最直接的实现方式,其输入模式为时序数据 + prompt。例如,在预测任务中,prompt 为「predict future sequences using previous data」,其图结构如图 1 中的 VCA 所示。在分类任务中,输入为「时序数据 + Predict category using previous data」,其图结构与预测任务相同。VCA 利用最简单直接的 prompt,通过双尺度图结构实现语境对齐。

2. Few-Shot Context-Alignment(FSCA)

FSCA 是 VCA 的进阶版本,结合了 Few-Shot prompting 技术以进一步提升性能。该方法的输入包括例子 + 时序数据 + prompt。在预测任务中,prompt 依然为「predict future sequences using previous data」,但需要将原始历史时序数据分成两部分构建一个例子:前半段数据作为后半段数据的历史输入,后半段数据作为利用前半段数据预测的 ground truth。这一示例有助于大语言模型更好地理解预测任务。其图结构如图 1 中的「FSCA in TS Forecasting」所示。

图 2 展示了 FSCA 作为一个即插即用的模块被引入到预训练的大语言模型中进行微调。在分类任务中,FSCA 需要抽取一组时序数据和其对应的标签构成一个固定的例子,再进行分类预测。其图结构如图 1 中的「FSCA in TS Classification」所示。

图 2 利用 FSCA 进行时序预测

主要实验结果

各种任务上的表现

该研究展示了长期预测、短期预测、Few-Shot 预测、Zero-Shot 预测以及分类任务的实验结果。

实验表明,FSCA 在多个任务中均取得了更优的性能。尤其在 Few-Shot 预测和 Zero-Shot 预测中,FSCA 分别超越次优方法 6.7% 和 13.3%。FSCA 在 Few-Shot 和 Zero-Shot 预测任务中的出色表现表明,双尺度图结构成功引入了基于逻辑结构的先验知识。这进一步验证了正确的结构划分和逻辑引导对于大语言模型(LLM)理解时序数据的重要性。

表 1 长期预测结果对比

表 2 短期预测结果对比

表 3 Few-shot 预测结果对比

表 4 Zero-shot 预测结果对比

图 3 分类结果对比

计算效率对比

所提出的 FSCA 在计算效率方面仅次于 GPT4TS(该方法仅在 LLM 的输入和输出阶段加入了线性层)。

相比之下,其他流行方法在实现词 token 对齐时往往需要付出较大的计算代价。此外,这些方法通常包含额外的操作。例如,Time-LLM 在每次迭代中都会重复生成提示并检索相应的嵌入,进一步增加了计算开销。

相较而言,FSCA 中的双尺度 GNN 仅引入了两个可学习矩阵,以及两个用于将细粒度节点嵌入转化为粗粒度节点嵌入的可学习线性层。这些操作本质上是简单的矩阵计算,极大地降低了计算复杂性。因此,FSCA 在计算效率上显著优于以往基于词 token 对齐的方法,在保证性能提升的同时有效减少了计算资源的消耗。


总结

综上所述,本文首次提出了语境对齐(Context-Alignment)的概念,并基于双尺度图网络结构和 Few-Shot prompting 技术设计了 FSCA 模型。与以往流行的基于词 token 对齐的方法相比,FSCA 在实现更优性能的同时显著降低了计算开销。此外,原文还提供了更为详尽的消融实验、分析实验和对比实验结果,全面验证了 FSCA 的有效性和优势。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

针对“FSCA 方法在 Few-Shot 和 Zero-Shot 场景下表现优异,这是否意味着未来可以减少对大量标注数据的依赖?”这个问题,我觉得很有可能。FSCA 的成功表明,通过巧妙的设计,即使只有少量甚至没有标注数据,模型也能表现出色。这对于降低数据标注成本、加速模型开发周期意义重大。

“相比于传统的词对齐方法,语境对齐的优势主要体现在哪些方面?除了性能和计算效率,还有其他潜在的优势吗?”这个嘛,我觉得可以从更高的维度来看。词对齐就像小学生背单词,只记住表面意思;语境对齐则像理解文章,能把握深层含义。所以,除了性能和效率,语境对齐可能还有更强的鲁棒性和可迁移性,能更好地抵抗噪声和适应不同的领域。

关于“语境对齐的思想是否可以迁移到其他领域,例如图像识别或自然语言处理的其他任务?”这个问题,我认为是很有可能的。语境对齐的核心在于理解和利用逻辑结构,这在很多领域都适用。比如在图像识别中,可以考虑将图像的不同部分看作一个整体,并分析它们之间的关系;在自然语言处理中,可以应用于文本摘要、机器翻译等任务。

关于“相比于传统的词对齐方法,语境对齐的优势主要体现在哪些方面?除了性能和计算效率,还有其他潜在的优势吗?”这个问题,我认为语境对齐更注重整体的逻辑和结构,而不只是词汇的表面匹配,这更符合人类理解语言的方式。除了性能和效率,它或许还能更好地处理复杂的时间序列模式,以及更灵活地适应不同的下游任务。

对于这个问题,我觉得语境对齐的思想很有借鉴意义。在图像识别中,可以尝试将图像的不同区域以及它们之间的空间关系构建成图结构,从而更好地理解图像的语义信息。在自然语言处理的其他任务中,例如关系抽取或情感分析,也可以尝试类似的方法,将文本的不同部分以及它们之间的逻辑关系进行建模。

如果要回答“语境对齐的思想是否可以迁移到其他领域,例如图像识别或自然语言处理的其他任务?”这个问题,我的答案是:绝对可以!想想看,我们理解世界不正是依靠各种各样的上下文吗?图像识别中,物体的周围环境、其他物体都是上下文;自然语言处理中,一句话的上下文是段落,一个段落的上下文是整篇文章。所以,语境对齐的思想可以广泛应用于各个领域,帮助机器更好地理解世界。

对于“FSCA 方法在 Few-Shot 和 Zero-Shot 场景下表现优异,这是否意味着未来可以减少对大量标注数据的依赖?”这个问题,我个人的想法是:减少依赖,是的;完全摆脱,现在还不行。想象一下,一个婴儿即使没见过很多猫,也能很快认出新的猫,但前提是他已经见过一些动物,有了基本的认知框架。FSCA 也类似,它需要预训练模型提供基础知识,Few-Shot 和 Zero-Shot 学习只是锦上添花。

关于这个问题,我的看法是:虽然 FSCA 在 Few-Shot 和 Zero-Shot 学习中展现了潜力,但要说完全摆脱对标注数据的依赖还为时尚早。毕竟,模型的学习仍然需要一定的指导,少量样本或零样本学习的泛化能力还有待进一步提升。或许未来可以探索结合其他技术,例如半监督学习或主动学习,进一步减少对标注数据的依赖。

对于这个问题,我觉得除了性能和计算效率的提升,语境对齐可能还有以下潜在优势:1. 更好的可解释性,因为它关注的是逻辑结构,更容易理解模型的决策过程;2. 更强的泛化能力,因为它不局限于特定的词汇,可以更好地适应新的场景和任务。