【DL輪読会】時系列予測 Transfomers の精度向上手法

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
時系列予測Transfomers の精度向上手法
Tsuyoshi Ishizone(石曽根毅), Meiji University Nakamura Lab.

本日の輪読内容
• Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting
– NeurIPS’22 採択（Rating: 7, 7, 4, 4）
– 著者：Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long（清華大学）
– 概要：時系列予測 Transformers の Attention を非定常性を考慮した De-stationary Attention
に置き換えることでベンチマークデータセットに対して精度向上を確認
– 選書理由：時系列予測で難しい非定常性を Attention ブロックで入れており，
Encoder-Decoder 構造の Transformers 全般に適用できる汎用性に興味を抱いたため
• WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting
– NeurIPS’22 採択（Rating: 7, 7, 6, 5）
– 著者：Youngin Cho, Daejin Kim, Dongmin Kim, Mohammad Azam Khan, Jaegul Choo（KAIST AI）
– 概要：各時点・サンプル別に過学習を動的に抑制することで時系列予測手法の精度向上を確認
– 選書理由：シンプルな手法だが流行りの時系列予測手法では軒並み精度が向上しており，
汎用性の高さに興味を抱いたため
2

時系列予測
• 問題設定
– 時系列データ {{𝑥𝑡
𝑖
}𝑡=1
𝑇
}𝑖=1
𝑁
が given（𝑖: sample index）
– 過去の系列から将来の系列を予測
• 本日扱う手法の立ち位置（右図）
5
Transformer [Vaswani+, NIPS’17],
LogTrans [Li+, NeurIPS’21],
Informer [Zhou+, AAAI’21],
Reformer [Litaev+, ICLR’20],
Pyraformer [Liu+, ICLR’22],
Autoformer [Wu+, NeurIPS’21],
FEDformer [Zhou+, ICML’22],
ETSformer [Woo+, arXiv, 22]
Transformer 系列
LSTNet [Lai+, SIGIR’18],
DeepAR [Salinas+, Int. J. Forecast., 20]
N-BEATS [Oreshkin+, ICLR’20],
N-HiTS [Challu+, arXiv, 22]
損失ベース時系列予測手法
Non-Stationary Transformers (1本目)
WaveBound (2本目)

Non-stationary Transformers:
Exploring the Stationarity in Time Series Forecasting
7

本論文の貢献
• 近年の時系列予測手法の課題である over-stationarization（過定常化）問題を解決！
– “定常” な時系列
• (強)定常：任意の同時分布 𝑝(𝑥𝑡−𝑤, ⋯ , 𝑥𝑡) が時間に依存しない
• 弱定常：平均ベクトル 𝑬 𝒙𝒕 と分散共分散行列 𝑽[𝒙𝒕] が時間に依存しない
– (今回はわかりやすさのため弱定常で説明するが，厳密には強定常のことを定常という)
– ほとんどの時系列は非定常
• 時間区間に依存して分布シフトが起きているイメージ
• 非定常な時系列は扱いづらいので，前処理で定常化を行うことが多い
• 弱定常の場合，正規化をイメージすれば良い
– 過定常化（over-stationarization）
• 定常化した時系列に基づく予測モデルでは，非定常性による予測の差異を捉えきれないこと
8

提案枠組み
• Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える
9

Normalization / De-normalization
• Normalization
– 変数別に sequence length 方向に正規化
𝑖: sample size, 𝑆: sequence length
• De-normalization
– 予測を保存しておいた統計量から非正規化
10

De-stationary Attention
11
(あるべき) 非定常な attention：
定常な key 𝐾′, query 𝑄′ との関係式：
(標準偏差が変数に依らないと仮定した正規化の式)
(Query の線形性)
Scaling scalar Shifting vector

De-stationary Attention
12
非定常な key 𝐾, query 𝑄 と定常な key 𝐾′, query 𝑄′ との関係式：
Scaling scalar Shifting vector
Scaling scalar と Shifting vector を非定常な原系列 𝑥 から計算：

提案枠組み（再掲）
• Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える
13

実験内容
• データセット（いずれも時系列予測のベンチマークデータセット）
• ベースライン手法
– 深層時系列予測手法：Autoformer, Pyraformer, Informer, LogTrans, Reformer, LSTNet
– 単変量時系列予測手法：N-HiTS, N-BEATS, ARIMA
• 評価指標
– MSE（平均二乗誤差），MAE（平均絶対誤差）
14

主結果
• 提案枠組みを時系列予測 Transformers 導入すると，いずれの手法でも予測誤差を削減
15

元データと予測の相対的定常性
• 時系列の定常度を ADF 検定統計量で評価（smaller ADF → higher 定常度）
• 原系列と予測系列の ADF 検定統計量の比率で相対的な定常度を評価（97~103% が好ましい）
• 通常の正規化 (Series Stationarization) や発展的な正規化 (RevIN) と異なり，
提案法 (De-stationary Attention) は原系列と同等の定常度を持つ予測が可能
→ 定常度を保存した（過定常化を抑制した）予測モデルによって予測精度が向上したと考えられる
16

WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting
17

本論文の概要
• 貢献：学習時の時系列パターンの過学習を抑制！
• 提案法：学習損失を下げる下界を時点ごとに動的に決め，損失を近づける
– Cf.) flooding [Ishida+, ICML’20]: 学習損失を下げる下界を事前に決め，損失の時間平均を近づける
– Cf.) flooding (modified): 学習損失を下げる下界を事前に決め，時間ごとに損失を近づける
18

経験リスクの比較
19
手法経験リスク
通常
flooding (original)
flooding (modified)
WaveBound
(提案法)
N: サンプル数
M: 予測時点数
K: 次元数
時間平均
(事前に決める)
損失の下界
時点別の損失
(動的に決める)
損失の下界

提案法：WaveBound
20
損失の下界を計算するためのネットワーク
予測モデル (Source network) の指数移動平均(EMA)でパラメータを決定
予測モデルの学習損失がテスト損失より下に
束縛できるよう ϵ ≪ 1 を導入

主結果
• データセット
– NS Transformers と同様の
ベンチマーク6つ
• 多くの時系列予測手法で予
測誤差の削減を確認
21

ECL データセットでの予測誤差比較
• Flooding では予測誤差が振動している
→ Flooding では一様な損失下界であり時間依存性を反映していない．
学習データへの過適合を抑えきれておらず，予測が不安定になりやすい
• WaveBound では予測誤差の振動が抑えられている
→ WaveBound は学習データへの過適合を抑え，予測を安定させる効果
22

ETTh1 データセットでの損失曲面比較
• Filter normalization [Li+, NIPS’18] で損失曲面を可視化
• WaveBound を使用した方がより flat な曲面を形成
→ flat な損失曲面の方が汎化性能が高いことが一般に知られており [Park+, ICLR’22]，
WaveBound によって汎化性能が引き上げられたと考えられる
23

まとめ・感想
• 時系列予測 Transfomers の予測精度を向上させる試みを２つ紹介
– Non-stationary Transfomers：過定常化を抑制する注意機構を導入
– WaveBound：汎化誤差を抑えるための損失下界を適応的に決定
• Non-stationary Transformers
– 平均・分散を非定常に調整した注意機構を提案しており，より高次の統計量にも議論は拡張できそう
– Encoder-Decoder に入力する前の正規化（定常化）はマスト
• 正規化時に input length S=96 を固定しており，
非定常に焦点を当てている論文なので区間幅 S に関する議論を深めて欲しかった
• WaveBound
– Appendix で時系列生成モデルや時空間予測モデルに対する精度向上の事例もあり，今後の発展を期待
• Teacher-Student モデルの枠組みに近いため，蒸留分野からの発展がありそう
24

まとめ・感想
• 汎用的な時系列基盤モデルの構築は難しい
– 画像や言語では大規模事前学習済みモデルからの転移学習 / fine-tuning である程度性能が出る
– 時系列では，非定常性（分布シフト）と過学習の容易さからまだ難しい
• 時系列で汎化が難しいのも非定常性が一因
• 今回紹介した論文は非定常性と汎化に立ち向かっており，今後の発展が期待される
– 表現空間に落とすとしたら区間ごとに1つの表現とすることになるが，区間の区切り方が非自明
• 周波数空間に落とし込めば異なる区間幅でも1つの表現にできるが，非定常性からどこまでの区間を周波数
変換すべきかが非自明
• 他分野への波及
– 動画像は系列データであるが，画像 (computer vision) 側から大規模モデルが発展
• 時系列と動画像の multi-modal な表現によって，センサ時系列の非定常性を汲み取れる可能性
– 世界モデルの世界が動的に変わる場合（工学応用ではあまりなさそう，RL の非工学応用？），
非定常性を取り入れた内部モデルが発展してくる可能性 25

References (時系列予測 Transformers)
• [Vaswani+, NIPS’17] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin.
Attention is all you need. In NIPS, 2017.
• [Li+, NeurIPS’19] S. Li, X. Jin, Y. Xuan, X. Zhou, W. Chen, Y. Wang, and X. Yan. Enhancing the locality and breaking the
memory bottleneck of transformer on time series forecasting. In NeurIPS, 2019.
• [Zhou+, AAAI’21] H. Zhou, S. Zhang, J. Peng, S. Zhang, J. Li, H. Xiong, and W. Zhang. Informer: Beyond efficient
transformer for long sequence time-series forecasting. In AAAI, 2021.
• [Kitaev+, ICLR’20] N. Kitaev, L. Kaiser, and A. Levskaya. Reformer: The efficient transformer. In ICLR, 2020.
• [Liu+, ICLR’22] S. Liu, H. Yu, C. Liao, J. Li, W. Lin, A. XLiu, and S. Dustdar. Pyraformer: Low-complexity pyramidal attention
for long-range time series modeling and forecasting. In ICLR, 2022.
• [Wu+, NeurIPS’21] H. Wu, J. Xu, J. Wang, and M. Long. Autoformer: Decomposition transformers with Auto-Correlation for
long-term series forecasting. In NeurIPS, 2021.
• [Zhou+, ICML’22] T. Zhou, Z. Ma, Q. Wen, X. Wang, L. Sun, and R. Jin. FEDformer: Frequency enhanced decomposed
transformer for long-term series forecasting. In ICML, 2022.
• [Woo+, arXiv, 22] G. Woo, C. Liu, D. Sahoo, A. Kumar, and S. C. H. Hoi. Etsformer: Exponential smoothing transformers for
time-series forecasting. arXiv preprint arXiv:1406.1078, 2022.
26

References (Others)
• [Lai+, SIGIR’18] G. Lai, W. Chang, Y. Yang, and H. Liu. Modeling long- and short-term temporal patterns with deep neural networks. In SIGIR, 2018.
• [Salinas+, Int. J. Forecast., 20] D. Salinas, V. Flunkert, J. Gasthaus, and T. Januschowski. DeepAR: Probabilistic forecasting with autoregressive
recurrent networks. Int. J. Forecast., Vol. 36, 3, pp.1181-1191, 2020.
• [Oreshkin+, ICLR’20] B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio. N-BEATS: neural basis expansion analysis for interpretable time series
forecasting. In ICLR, 2020.
• [Challu+, arXiv, 22] C. Challu, K. G. Olivares, B. N. Oreshkin, F. Garza, M. Mergenthaler, and A. Dubrawski. N-hits: Neural hierarchical interpolation for
time series forecasting. arXiv preprint arXiv:2201.12886, 2022.
• [Ishida+, ICML’20] T. Ishida, I. Yamane, T. Sakai, G. Niu, and M. Sugiyama. Do We Need Zero Training Loss After Achieving Zero Training Error? In
ICML, 2020.
• [Li+, NIPS’18] H. Li, Z. Xu, G. Taylor, C. Studer, and T. Goldstein. Visualizing the Loss Landscape of Neural Nets. In NIPS, 2018.
• [Park+, ICLR’22] N. Park and S. Kim. How do vision transformers work? In ICLR, 2022.
• [Ogasawara+, IJCNN’10] E. Ogasawara, L. C. Martinez, D. de Oliveira, G. Zimbrão, G. L. Pappa, and M. Mattoso. Adaptive Normalization: A novel data
normalization approach for non-stationary time series. In IJCNN, Barcelona, Spain, 2010, pp. 1-8, doi: 10.1109/IJCNN.2010.5596746.
• [Passalis+, IEEE TNNLS’20] N. Passalis, A. Tefas, J. Kanniainen, M. Gabbouj, and A. Iosifidis. Deep Adaptive Input Normalization for Time Series
Forecasting. In IEEE TNNLS, vol. 31, no. 9, pp. 3760-3765, Sept. 2020, doi: 10.1109/TNNLS.2019.2944933.
• [Kim+, ICLR’22] T. Kim, J. Kim, Y. Tae, C. Park, J. Choi, and J. Choo. Reversible Instance Normalization for Accurate Time-Series Forecasting
against Distribution Shift. In ICLR, 2022.
27

ご清聴ありがとうございました！
28

時系列データの定常化
• Adaptive Normalization [Ogasawara+, IJCNN’10]
– 移動平均 → 排反区間に分割 → 外れ値除去 → 区間別に正規化
• DAIN [Passalis+, IEEE TNNLS’20]
– Adaptive Shift，Adaptive Scaling を NN で sample-wise で求める
• RevIN [Kim+, ICLR’22]
– 入力系列を Instance Normalization → 予測器で予測 → De-normalization した損失で誤差伝播
30

データセット
• ETT (Electricity Transformer Temperature): 中国69地点・2年間 (2016~2018) の変圧器の油温や電
力負荷 (ETTh1 & ETTh2: hourly, ETTm1 & ETTm2: every 15 minutes)
• ECL (Electricity): 321顧客・2年間 (2012~2014) の電力使用量 (hourly)
• Exchange: 8カ国・27年間 (1990~2016) の為替レート (daily)
• Traffic:サンフランシスコ港862箇所・48ヶ月 (2015~2016) の道路占有率 (hourly)
• Weather: 全米1600箇所・4年間 (2010~2013) の21気象指標 (every 10 minutes)
• ILI: 米国・20年間 (2002~2021) のインフルエンザ様疾患患者 (weekly)
32

NS Transformers の主結果
• Ours (vanilla Transformer w/
proposed.) が最良
– Vanilla Transformer に提案法を導
入しただけでも，
既存法を凌駕することの証左
33

NS Transformers の他正規化手法との比較
• 既存法 (RevIN) とナイーブな標準化
(Series Stationarization) を凌駕
34

NS Transformers の Ablation Study
• 提案法 (Stat+DeAttn) が最良な
ケースが多い
– Stat: 定常化・非定常化
– DeFF: 正規化時の平均・分散を
Transformer のFeed-Forward NN
に入力
– DeAttn：Attention を
De-stationary Attention に置換
35

NS Transformers の査読者との議論
• Attention 後の MLP に正規化時の平均・分散を入れるだけではダメなのか？
– 提案法は過定常化問題の知見に基づくものである
• Scaling scalar τ, Shifting vector Δ は正規化時の平均・分散を直接使ってはダメなのか？
– データに依存した deep features であるため MLP を通す必要がある
• 正規化したものを “定常化時系列” と述べるのは不適切では？
– 「定常度合いを高めること」を定常化 (stationarization) として述べる
36

Filter-wise Normalization [Li+, NIPS’18]
• 各層の各フィルタ別に正規化した２つのランダムベクトルを用いて，
3次元的に損失曲面を可視化する手法
37

非定常性を扱う RevIN [Kim+, ICLR’22] との組み合わせ
• RevIN 単体よ
りも誤差の減
少を確認
38

EMA Model 単体との比較
• EMA model 単体（Without Bound）より，target network として EMA model を用いる提案法
（WaveBound (Indiv.)）の方が予測誤差減少
39

WaveBound 査読者との議論
• α，εはどうやって選ぶのか？
– α：0.99, 0.999, 0.9999 から選択．実験では更新速度確保のため 0.99 を選択
– ε：0.01, 0.001 から選択． εに対する堅牢性を確認済み
• 時系列予測モデル(TSF)で過適合が起きていることの証左は？
– 合成データセットに対して TSF は容易に過適合が生じることを確認
• 計算コスト・メモリコストは？
– 学習時間は 1.1~1.5 倍，学習時に必要なメモリは数%上昇
• 学習時に損失が高ければ EMA 損失も高くなり，bound にならないのでは？
– EMA モデルは原モデルのアンサンブルとして機能するため，査読者が心配する状況は滅多にない
– εを導入することで irreducible error に近づけられる
40

LogTrans [Li+, NeurIPS’19]
• 長期依存性を捉えるため，遠くの情報は徐々に疎にして attention する
41

Informer [Zhou+, AAAI’20]
• 長期系列を予測できるようにするため，層を経るたびに MaxPool して情報を圧縮
42

Reformer [Kitaev+, ICLR’20]
• attention の計算を同じハッシュ値の要素をまとめることで簡略化
• ハッシュ値はランダムな回転行列をかけた時の所属領域で決定 43

Pyraformer [Liu+, ICLR’22]
• 徐々に時間解像度を引き上げて attention を行っていく
44

Autoformer [Wu+, NeurIPS’21]
• フーリエ変換(FFT)して attention を取ることで，周期的な類似性を捉えた予測が可能に
45

FEDformer [Zhou+, ICML’22]
• M 周波数モードを強調する FEB-fと
M 周波数モードでの注意機構である
FEA-f を導入
46

ETSformer [Woo+, arXiv, 22]
• 指数移動平均で attention weight を決める Exponential Smoothing Attention 機構と
top-K 周波数の情報に縮約した Frequency Attention 機構を導入
47

LSTNet [Lai+, SIGIR’18]
• 深層モデル(CNN+LSTM)と自己回帰モデル(AR)を組み合わせた予測
48

DeepAR [Salinas+, Int. J. Forecast., 20]
• AR パラメータを RNN で構成して時系列予測
49

N-BEATS [Oreshkin+, ICLR’20]
• 各ブロックで予測
(forecast)と現時点の最
良推定(backcast)を計
算し，情報を統合
50

N-HiTS [Challu+, arXiv, 22]
• N-BEATS に multi-rate signal sampling を導入
• 異なるカーネルサイズで MaxPool することで所望の scale の情報を各ブロックで学習 51

【DL輪読会】時系列予測 Transfomers の精度向上手法

Recommended

More Related Content

What's hot (20)

Similar to 【DL輪読会】時系列予測 Transfomers の精度向上手法 (17)

More from Deep Learning JP (20)

【DL輪読会】時系列予測 Transfomers の精度向上手法

Editor's Notes