Exploring Representations and Interventions in Time Series Foundation Models

時系列予測 | ICML

Exploring Representations and Interventions in Time Series Foundation Models [paper] は、時系列基盤モデル MOMENT [脚注MOMENT] に対して、(1) 各層の隠れ状態に線形識別器を訓練して「概念」の「局在化」を行い、また、(2) 推論時に「ステアリング行列」を全層の中間活性化に加算することでモデルの出力を目標「概念」の方向へ変化させる手法を提案・検証する論文である (これらの貢献は比較的独立しており、後者が前者の結果を受けているわけではない)。Carnegie Mellon University Auton Lab の Michał Wiliński らによって著された (著者全員が同所属)。2024 年に arXiv にプレプリントが発表され、2025 年の ICML に採択された。

具体的には、(1) トレンド・パターン (正弦波・三角波・定数)・ノイズを組み合わせた合成時系列を生成して MOMENT に入力し全層の隠れ状態を取得し、各層の隠れ状態に LDA・平均ベース・SVM などの線形識別器を訓練してパターン種別の「分離可能性」を層ごとに測定し (線形 probing)、PCA で 2 次元に射影して可視化する、(2) 2 つの「概念」クラス間の活性化の差分から「ステアリング行列」を構築し全層に適用する、という実験を実施した。(1) の結果としては、パターン識別能力は MOMENT の中間層 (第 18 層付近) でピークを迎えることが示されている。(2) の結果としては、定数系列を入力として正弦波方向へステアリングすると、モデルの出力に周期的パターンが現れることが確認されている。

この論文の背景としては、「時系列モデルは実用上の性能を示しているが、内部で何を学んでいるかがわかっていない。NLP や画像では interpretability の研究が盛んだが、時系列ではほぼ手つかずである」「訓練時には存在しなかった概念・イベントを、再学習なしに事後的にモデルに組み込むことができれば、時系列モデルの活用の幅が広がる」といったやや大まかな主張がなされている。

参考文献

paper

Michał Wiliński, Mononito Goswami, Willa Potosnak, Nina Żukowska, Artur Dubrawski. Exploring representations and interventions in time series foundation models. Proceedings of the 42nd International Conference on Machine Learning (ICML 2025), vol. 267, pp. 66861−66886, 2025.

備考

この論文における「概念 (concept)」「局在化 (localization)」「ステアリング行列」は NLP の解釈可能性分野から用語が借用されており、特に「概念」「局在化」はそれぞれ「時系列の特徴」「分離精度最大層の特定」といったほうがわかりよいが、本記事では原論文のままこれらの語を用いる。

この論文における「概念」は、合成時系列の生成に用いたパターン種別 (正弦波・三角波・定数など) やトレンドの有無といった、時系列の特徴を指す。「モデルがその特徴を隠れ状態に線形分離可能な形で保持しているかどうか」という文脈で使われている。
この論文における「局在化」は、線形識別器の「分離可能性」がどの層で最大になるかを特定する操作を指す。つまり「ある概念はモデルの第 N 層付近の隠れ状態に最も強く表れている」という対応関係を見つけることである。
この論文における「ステアリング行列」は、2 つの概念クラス (例：定数系列 vs 正弦波系列) それぞれの隠れ状態の平均ベクトルの差分から構築した行列で、推論時に全層の中間活性化に加算することでモデルの出力を目標概念の方向へ変化させるものである。各層に単一のベクトルを加算する「ステアリングベクトル」の多層版にあたる。

脚注

MOMENT: Carnegie Mellon University Auton Lab が開発した時系列向け基盤モデルのファミリー (, )。ICML 2024 採択。T5 ベースの Transformer エンコーダ (Google が 2020 年に発表した NLP 向け事前学習済み Transformer モデル T5: Text-to-Text Transfer Transformer) で、入力時系列を固定長のパッチに分割してトークン化し、マスク予測タスクで事前学習する。学習データは "Time Series Pile" と呼ばれる 13 ドメインにわたる約 1300 万系列の公開データで、予測・分類・異常検知・補間の複数タスクに対応している。