A decoder-only foundation model for time-series forecasting

概要

  • Twitterで話題になっていた時系列予測の基盤モデルについてのGoogleのblog
  • 200Mパラメータでありながらゼロショットパフォーマンスで、そのデータセットで訓練されたモデルよりも優れている (本当か??)
    • (要するにこの時系列他のデータで見たことあるよって予測の方法だが、その時系列特有の情報を使った方が直感的には精度が高くなりそうな気はする)
  • NLPモデルと異なる部分として
    • 時系列のパッチ (上の図でいうの部分)をEncodeしてTransformerに入れるために残差接続のあるMLPを使用
    • 出力パッチが入力パッチより長くなることがある。( )
  • 事前訓練
    • 統計モデルや物理シミュレーションを用いた意味のある合成時系列データ
    • Publicな公開時系列データセット
  • 結果
    • Monash Forecasting Archiveという交通、天気、需要予測などさまざまなドメインの時系列データが含まれるデータセットで比較
    • CatBoostには負けてる (どんな特徴量を使ったのか気になるが)
    • 長期予測のデータセットETTでは他の手法より優れた性能
    • あまりうまくいってない時系列も存在 (論文から拝借)