TimeDART：利用自监督学习提升时间序列预测的新方法

DatapiTHU · 2024 年11 月 7 日 16:57

TimeDART通过自监督学习和扩散模型相结合，提供了一种新方法来提升时间序列预测的准确性。

原文标题：TimeDART：基于扩散自回归Transformer 的自监督时间序列预测方法

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247647939&idx=2&sn=659a9f6acd97e4f4aa738cc355ab3cf8&

冷月清谈：

TimeDART是一种基于扩散自回归Transformer的自监督学习方法，旨在改进时间序列预测。该方法通过从未标记数据中生成监督信号，解决了模型在捕获全局依赖和局部特征时的挑战。TimeDART利用Transformer编码器有效捕获数据的整体序列结构，并通过前向扩散与去噪过程增强局部特征。文章详细介绍了TimeDART的架构、关键技术以及在多种数据集上与现有方法的性能对比。实验结果显示，TimeDART在准确性和适应性方面具有显著优势，为实际应用提供了更可靠的预测工具，且为未来时间序列预测研究指明了方向。

怜星夜思：

1、自监督学习如何改变时间序列分析的研究方向？
2、扩散自回归模型相比传统模型有什么优势？
3、有哪些实际场景可以应用TimeDART的预测模型？

原文内容

来源：DeepHub IMBA‍

         本文约4000字，建议阅读5分钟

         本文介绍了基于扩散自回归Transformer 的自监督时间序列预测方法。

近年来，随着机器学习技术的进步，深度神经网络已经成为解决时间序列预测问题的主流方法。这反映了学术界和工业界在利用先进技术处理序列数据复杂性方面的持续努力。

自监督学习概述

基本定义

自监督学习是一种创新的学习范式，其特点是模型能够从未标记数据中通过内部生成的监督信号进行学习，通常这种学习通过预文任务来实现。与传统的监督学习不同，自监督学习不需要外部标签，而是利用数据本身的内在结构来创建必要的学习信号。

在时间序列领域的应用

在时间序列分析领域，自监督学习展现出独特的优势。它使得模型能够：

从未标记数据中学习通用表示

‍
同时捕获数据中的长期依赖关系和局部细节特征

然而，这种学习方式仍面临着显著的挑战，这也是为什么需要像TimeDART这样的创新方法。通过集成扩散和自回归建模，TimeDART旨在解决这些根本性的挑战。

现有方法的问题

时间序列预测面临两个主要挑战：

全局依赖关系捕获：

需要有效理解和建模长期时间依赖；传统方法难以准确捕获序列中的全局模式

局部特征提取：

需要精确捕获时间序列中的局部细节特征；现有方法在同时处理这两个任务时表现不佳

这些挑战严重影响了模型学习全面和富有表现力的时间序列数据表示的能力。

TimeDarT方法详解

TimeDART是一种专为时间序列预测设计的自监督学习方法。它的核心思想是通过从时间序列历史数据中学习模式来改进未来数据点的预测。研究者采用了一种创新的方法，将时间序列数据分解成更小的片段（patches），并将这些patches作为建模的基本单位。

核心技术组件

Transformer编码器设计：

使用了具有自注意力机制的Transformer编码器
专注于理解patches之间的依赖关系
有效捕获数据的整体序列结构

扩散和去噪过程：

实现了两个关键过程：扩散和去噪
通过向数据添加和移除噪声来捕获局部特征
这是所有扩散模型中的典型过程
提升了模型在详细模式上的表现

‍

TimeDART架构详解

TimeDART架构图展示了模型如何：

使用自回归生成捕获全局依赖关系
通过去噪扩散模型处理局部结构
在前向扩散过程中向输入patches引入噪声
生成自监督信号
通过自回归方式在反向过程中恢复原始序列

实例归一化和Patch嵌入

这一阶段包含几个关键步骤：

实例归一化：

对输入的多变量时间序列数据进行标准化
确保每个实例具有零均值和单位标准差
目的是保持最终预测的一致性

数据分割策略：

将时间序列数据划分为patches而非单个点
这种方法能够捕获更全面的局部信息

避免信息泄漏：

patch长度设置为等于stride（步长）
确保每个patch包含原始序列的非重叠段
防止训练过程中的信息泄漏

Transformer编码器中的Patch间依赖关系

在架构中，研究者实现了以下关键特性：

基于自注意力的处理：

使用自注意力的Transformer编码器
专门用于建模patches之间的依赖关系

全局依赖性捕获：

通过考虑时间序列数据中不同patches之间的关系
有效捕获全局序列依赖关系

表示学习：

Transformer编码器能够学习有意义的patch间表示
这对于理解时间序列的高层结构至关重要


class TransformerEncoderBlock(nn.Module):
def __init__(
self, d_model: int, num_heads: int, feedforward_dim: int, dropout: float
):
super(TransformerEncoderBlock, self).__init__()
self.attention = nn.MultiheadAttention(

embed_dim=d_model, num_heads=num_heads, dropout=dropout, batch_first=True

)

self.norm1 = nn.LayerNorm(d_model)

self.ff = nn.Sequential(

nn.Linear(d_model, feedforward_dim),

nn.GELU(),

nn.Dropout(dropout),

nn.Linear(feedforward_dim, d_model),

)

self.conv1 = nn.Conv1d(in_channels=d_model, out_channels=feedforward_dim, kernel_size=1)

self.activation = nn.GELU()

self.conv2 = nn.Conv1d(in_channels=feedforward_dim, out_channels=d_model, kernel_size=1)

self.norm2 = nn.LayerNorm(d_model)

self.dropout = nn.Dropout(dropout)
def forward(self, x, mask):

“”"

:param x: [batch_size * num_features, seq_len, d_model]

:param mask: [1, 1, seq_len, seq_len]

:return: [batch_size * num_features, seq_len, d_model]

“”"
Self-attention
attn_output, _ = self.attention(x, x, x, attn_mask=mask)

x = self.norm1(x + self.dropout(attn_output))
Feed-forward network
y = self.dropout(self.activation(self.conv1(y.permute(0, 2, 1))))
ff_output = self.conv2(y).permute(0, 2, 1)
ff_output = self.ff(x)

output = self.norm2(x + self.dropout(ff_output))
return output

前向扩散过程

前向扩散过程的主要特点：

噪声应用：

在输入patches上应用噪声
生成自监督信号
通过从带噪声版本中重构原始数据来学习稳健的表示

模式识别：

噪声帮助模型识别和关注
专注于时间序列数据中的内在模式



class Diffusion(nn.Module):

def init(

self,

time_steps: int,

device: torch.device,

scheduler: str = “cosine”,

):

super(Diffusion, self).init()

self.device = device

self.time_steps = time_steps
if scheduler == “cosine”:

self.betas = self._cosine_beta_schedule().to(self.device)

elif scheduler == “linear”:

self.betas = self._linear_beta_schedule().to(self.device)

else:

raise ValueError(f"Invalid scheduler: {scheduler=}")
self.alpha = 1 - self.betas

self.gamma = torch.cumprod(self.alpha, dim=0).to(self.device)
def _cosine_beta_schedule(self, s=0.008):

steps = self.time_steps + 1

x = torch.linspace(0, self.time_steps, steps)

alphas_cumprod = (

torch.cos(((x / self.time_steps) + s) / (1 + s) * torch.pi * 0.5) ** 2

)

alphas_cumprod = alphas_cumprod / alphas_cumprod[0]

betas = 1 - (alphas_cumprod[1:] / alphas_cumprod[:-1])

return torch.clip(betas, 0, 0.999)
def _linear_beta_schedule(self, beta_start=1e-4, beta_end=0.02):

betas = torch.linspace(beta_start, beta_end, self.time_steps)

return betas
def sample_time_steps(self, shape):

return torch.randint(0, self.time_steps, shape, device=self.device)
def noise(self, x, t):

noise = torch.randn_like(x)

gamma_t = self.gamma[t].unsqueeze(-1)  # [batch_size * num_features, seq_len, 1]
x_t = sqrt(gamma_t) * x + sqrt(1 - gamma_t) * noise
noisy_x = torch.sqrt(gamma_t) * x + torch.sqrt(1 - gamma_t) * noise

return noisy_x, noise
def forward(self, x):
x: [batch_size * num_features, seq_len, patch_len]
t = self.sample_time_steps(x.shape[:2])  # [batch_size * num_features, seq_len]

noisy_x, noise = self.noise(x, t)

return noisy_x, noise, t

基于交叉注意力的去噪解码器

该解码器具有以下特点：

核心功能：

使用交叉注意力机制
目的是重构原始的、无噪声的patches

优化设计：

允许可调整的优化难度
使自监督任务更有效
使模型能够专注于捕获详细的patch内特征

解码器的工作机制：

接收噪声（作为查询）和编码器的输出（键和值）
使用掩码确保第j个噪声输入对应于Transformer编码器的第j个输出


class TransformerDecoderBlock(nn.Module):
def __init__(
self, d_model: int, num_heads: int, feedforward_dim: int, dropout: float
):
super(TransformerDecoderBlock, self).__init__()
self.self_attention = nn.MultiheadAttention(

embed_dim=d_model, num_heads=num_heads, dropout=dropout, batch_first=True

)

self.norm1 = nn.LayerNorm(d_model)

self.encoder_attention = nn.MultiheadAttention(

embed_dim=d_model, num_heads=num_heads, dropout=dropout, batch_first=True

)

self.norm2 = nn.LayerNorm(d_model)

self.ff = nn.Sequential(

nn.Linear(d_model, feedforward_dim),

nn.ReLU(),

nn.Dropout(dropout),

nn.Linear(feedforward_dim, d_model),

)

self.norm3 = nn.LayerNorm(d_model)

self.dropout = nn.Dropout(dropout)
def forward(self, query, key, value, tgt_mask, src_mask):

“”"

:param query: [batch_size * num_features, seq_len, d_model]

:param key: [batch_size * num_features, seq_len, d_model]

:param value: [batch_size * num_features, seq_len, d_model]

:param mask: [1, 1, seq_len, seq_len]

:return: [batch_size * num_features, seq_len, d_model]

“”"
Self-attention
attn_output, _ = self.self_attention(query, query, query, attn_mask=tgt_mask)

query = self.norm1(query + self.dropout(attn_output))
Encoder attention
attn_output, _ = self.encoder_attention(query, key, value, attn_mask=src_mask)

query = self.norm2(query + self.dropout(attn_output))
Feed-forward network
ff_output = self.ff(query)

x = self.norm3(query + self.dropout(ff_output))
return x

用于全局依赖关系的自回归生成

自回归生成的主要职责：

高层依赖捕获：

捕获时间序列中的高层全局依赖关系
通过自回归方式恢复原始序列
使模型能够理解整体时间模式和依赖关系
显著提升预测能力


class DenoisingPatchDecoder(nn.Module):
def __init__(
self,
d_model: int,
num_heads: int,
num_layers: int,
feedforward_dim: int,
dropout: float,
):
super(DenoisingPatchDecoder, self).__init__()
self.layers = nn.ModuleList(

[

TransformerDecoderBlock(d_model, num_heads, feedforward_dim, dropout)

for _ in range(num_layers)

]

)

self.norm = nn.LayerNorm(d_model)
def forward(self, query, key, value, is_tgt_mask=True, is_src_mask=True):

seq_len = query.size(1)

tgt_mask = (

generate_self_only_mask(seq_len).to(query.device) if is_tgt_mask else None

)

src_mask = (

generate_self_only_mask(seq_len).to(query.device) if is_src_mask else None

)

for layer in self.layers:

query = layer(query, key, value, tgt_mask, src_mask)

x = self.norm(query)

return x
class ForecastingHead(nn.Module):

def init(

self,

seq_len: int,

d_model: int,

pred_len: int,

dropout: float,

):

super(ForecastingHead, self).init()

self.pred_len = pred_len

self.flatten = nn.Flatten(start_dim=-2)

self.forecast_head = nn.Linear(seq_len * d_model, pred_len)

self.dropout = nn.Dropout(dropout)
def forward(self, x: torch.Tensor) -> torch.Tensor:

“”"

:param x: [batch_size, num_features, seq_len, d_model]

:return: [batch_size, pred_len, num_features]

“”"

x = self.flatten(x)  # (batch_size, num_features, seq_len * d_model)

x = self.forecast_head(x)  # (batch_size, num_features, pred_len)

x = self.dropout(x)  # (batch_size, num_features, pred_len)

x = x.permute(0, 2, 1)  # (batch_size, pred_len, num_features)

return x

优化和微调

优化过程的关键特点：

自回归优化：

整个模型以自回归方式进行优化
获得可以针对特定预测任务进行微调的可迁移表示

表示特性：

确保模型学习的表示既全面又适应性强
能够适应各种下游应用
在时间序列预测中实现卓越性能

实验评估

数据集介绍

实验使用了八个广泛使用的数据集：

ETT数据集系列：

ETTh1、ETTh2、ETTm1、ETTm2四个子集
代表能源领域的时间序列数据

其他领域数据集：

Weather数据集
Exchange数据集
Electricity数据集
Traffic数据集

这些数据集涵盖了多个应用场景，包括电力系统、交通网络和天气预测等领域。

实验结果分析

表1展示了TimeDART与现有方法的对比结果：

与最先进的自监督方法和监督方法进行比较
最佳结果用粗体标示
第二好的结果带有下划线
"#1 Counts"表示该方法达到最佳结果的次数

表2显示了TimeDART在不同设置下的性能：

展示了在五个数据集上预训练并在特定数据集上微调的结果
所有结果都是从4个不同预测窗口{96, 192, 336, 720}中平均得出
最好的结果用粗体标示

消融研究结果：

所有结果都是从4个不同预测窗口{96, 192, 336, 720}中平均得出
最好的结果用粗体标示

超参数敏感性分析

前向过程参数

噪声步数T的影响：

测试了{750, 1000, 1250}三个设置
发现噪声步数对预训练难度影响不大
所有设置都优于随机初始化
噪声调度器的选择：
余弦调度器显著优于线性调度器
某些情况下，线性调度器甚至导致性能低于随机初始化
证实了平滑噪声添加的重要性

去噪patch解码器层数

测试了{0, 1, 2, 3}层配置
单层解码器通常提供最佳的模型复杂度和准确性平衡
过多的层数可能导致表示网络的训练不足

patch长度的影响

测试了{1, 2, 4, 8, 16}不同长度
最佳patch长度取决于数据集特征
较大的patch长度可能更适合具有高冗余性的数据集

总结

TimeDART通过创新性地结合扩散模型和自回归建模，成功解决了时间序列预测中的关键挑战：

技术创新：

首次将扩散和自回归建模统一到单一框架
设计了灵活的交叉注意力去噪网络

性能提升：

在多个数据集上实现了最优性能
展示了强大的域内和跨域泛化能力

实际意义：

为时间序列预测提供了新的研究方向
为实际应用提供了更可靠的预测工具

TimeDART的成功表明，结合不同的生成方法可以有效提升时间序列预测的性能，为该领域的进一步研究提供了新的思路。

论文地址：

https://arxiv.org/abs/2410.05711

编辑：王菁

编辑：龚力‍

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

SpringFlower865 · 2024 年12 月 4 日 06:15

自监督学习为时间序列分析提供了新的机遇。通过减少对标签数据的依赖，研究人员能够探索更多未标记数据，提高模型的适用性和实用性。

OnyxHorse674 · 2024 年12 月 5 日 00:29

自监督学习的引入不仅让模型可以自主挖掘模式，还推动了研究者在没标签的情况下探索更深层次的时间序列特征，简直是个游戏规则改变者。

CloudySky415 · 2024 年12 月 1 日 21:10

自监督学习打破了传统的依赖于标注数据的框架，使得研究者可以在更大集合的原始数据中发现和利用潜在规律，这将大大拓宽我们对时间序列预测的理解。

MidnightOwl519 · 2024 年12 月 6 日 23:13

扩散自回归模型在处理长时间依赖和复杂模式方面表现出色。它能够同时捕获全局和局部特征，显著提升预测的准确性。

RoaringTiger218 · 2024 年12 月 5 日 06:44

传统模型往往面临局部和全局特征无法并存的问题，扩散自回归的设计恰好解决了这一痛点，使得模型在捕获复杂数据时更为高效。

DancingFrog182 · 2024 年12 月 7 日 15:34

TimeDART适用于智能交通、能源管理和气象预测等领域，这些领域的数据通常呈现复杂的时间序列关系。

IronKnight238 · 2024 年12 月 2 日 04:47

在金融市场上，TimeDART可以帮助分析价位波动趋势，为投资决策提供更可靠的依据。

GentleBreeze816 · 2024 年12 月 3 日 10:42

当然，TimeDART模型也可以应用于医疗数据分析中，比如病人健康监测，可以从历史数据中预测病情发展趋势，辅助医疗决策。