Are Transformers Effective for Time Series Forecasting?

Are Transformers Effective for Time Series Forecasting? [1] は線形層のみからなるニューラル時系列予測モデルを提案する論文である。香港中文大学の Ailing Zeng らによって著された。2022 年に arXiv にプレプリントが発表され、2023 年の AAAI に採択された。

論文の要旨には、Transformer は遠く離れた単語間の関係を学ぶことに成功しているが、時系列予測では連続値の列の時刻間の関係を抽出しなければならないといった旨のことが書かれている。その続きを意訳すると、「Transformer は位置エンコーディングによって位置情報は付加するものの、self-attention 自体は時刻の関係を考慮するものではないため、『何ステップ前にこうなったらこうなる』を学習するには不利である」ということと思われる。

参考文献

  1. Ailing Zeng, Muxi Chen, Lei Zhang, Qiang Xu. Are transformers effective for time series forecasting? Proceedings of the AAAI Conference on Artificial Intelligence (AAAI 2023), vol. 37, pp. 11121–11128, 2023.
    • , 2026年03月23日参照.
    • , 2026年03月23日参照.
  2. , 2026年03月23日参照.
  3. , 2026年03月23日参照.

DLinear のモデル構造

入力テンソル $X$ (形状 $[B, L_{\rm in}, C]$) を、各時点を中心としたカーネルサイズ $k=25$ の移動平均フィルタ (両端に $\lfloor (k-1)/2 \rfloor$ ずつ Edge padding して移動平均後も長さ $L_{\rm in}$ を保つ) で移動平均し、トレンド成分 $X_{\rm trend}$ とする (各時点を中心とするため、$k$ を偶数にするとエラーになる)。
$$ X_{\rm trend} = {\rm MovingAvg}(X) \\ X_{\rm seasonal} = X - X_{\rm trend} $$
その後、各成分に対し、入力長 $L_{\rm in}$ から予測長 $L_{\rm out}$ に変換する線形層を適用する (活性化関数は適用しない)。最後に、2つの線形層の出力を足し合わせた形状 $[B, L_{\rm out}, C]$ のテンソルを返す。
  • 線形層の重みを $1/L_{\rm in}$ で初期化する実装もあり [2][3]、これは「予測期間ずっと入力期間の単純平均値が続く」という初期化になっている。

NLinear のモデル構造

入力テンソル $X$ (形状 $[B, L_{\rm in}, C]$) に対し、末尾の値 $X_{L_{\rm in}}$ を差し引いた $X - X_{L_{\rm in}}$ に線形層を適用して予測長 $L_{\rm out}$ に変換し (活性化関数は適用しない)、最後に $X_{L_{\rm in}}$ を足し戻す。