[ICLR2025] Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
首先引入MOE架构,达到2.4B参数量。同时贡献了Time-300B,一个巨大的时序数据集。
[AAAI 2025] Graph Mixture of Experts and Memory-augmented Routers for Multivariate Time Series Anomaly Detection
在不同序列间建图,跑GNN,然后接MOE。每个expert处理一个layer的信息(就是每层GNN出来,都接一个expert)
[ICML2025] Empowering Time Series Foundation Models with Sparse Mixture of Experts
https://arxiv.org/pdf/2410.10469
主要贡献在于将MOE应用于时序基础模型,整合不同尺度的序列。
FreqMoE: Enhancing Time Series Forecasting through Frequency Decomposition Mixture of Experts
https://arxiv.org/pdf/2501.15125v1
核心操作是,每个expert只关注一段频域内的信息。因而,再FFT后,为每个expert分配一定的频域区间,分配边界的计算:
然后将边界排序:
其中
θ
i
\theta_i
θi是可学习参数。每个expert只处理当前区间内的频域信息。聚合所有expert的结果后,再将频域特征IFFT回来,变成时域特征。