序列预测模型


传统Transformer

2017年,Google在论文 Attention is All you need 中提出了 Transformer 模型,其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。相比 RNN 网络结构,其最大的优点是可以并行计算。
模型架构
Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码器层解码器层

注意力机制

  1. 一般注意力机制

  2. 自注意力机制

  3. 交叉注意力机制

  4. 多头注意力机制

  5. 多头自注意力机制

Feedforwaed层

子层连接结构

子层连接结构原理参考

编码器层

每个编码器层都由结构如下的N个编码器组成:
单个编码器内部结构示意图

解码器层

每个解码器层都由结构如下的N个解码器组成:
单个解码器内部结构示意图

Auto-former

2021年,清华大学团队在论文Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting 中提出了 Autoformer 模型。
模型架构

  1. AutoFormer延续了Transformer中Encoder-Decoder的框构。
  2. 保留了每层编码器层和译码器层中子层连接结构的个数
    但是:
    • 将传统Transformer中的Hulti-HeadAttention(包括Masked Hulti-HeadAttention)替换成了新的Auto-Correlation
    • 在每个子层连接结构后增加了一个Series Decomp层。

Auto-Correlation

  • 通过快速傅里叶变换(FFT)处理Q和K
  • 通过时延聚合(Time Delay Agg)完成注意力与V的融合
    Auto-Correlation模块架构

模块公式说明:

  1. 相关系数
    • 定义用于提起Q,K相似度的相关系数
      相关系数
  2. 模块实现的数学模型
    • 选取相关系数最高的K个值
    • 再用softmax对其进行标准化
    • 最后通过实验聚合实现注意力
      Auto-Correlation模块数学模型

Series Decomp

  1. 主要原理
    • 通过平均池化平滑数据, 提取数据的趋势信息
    • 通过将原始数据减去趋势信息, 得到季节性数据
      Series Decomp模块主要原理

Non-stationary Transformers

2022年,清华大学团队在论文Non-stationary Transformers:Exploring the Stationarity in Time Series Forecasting 中提出了 Non-stationary Transformers 模型。
模型架构

  • 通过标准化模块(Normalization)平稳化获得平稳的input使时间序列数据更好预测,同时使用去平稳化模块(De-normalization)对output进行处理,恢复其周期性。
  • 使用去平稳化注意力机制(De-stationary Attention)防止数据过平稳化,同时保留注意力机制的作用。

TimesNet

2022年,清华大学团队在论文TIMESNET: TEMPORAL 2D-VARIATION MODELING FOR GENERAL TIME SERIES ANALYSIS 中提出了 TimesNet 模型。


  目录