1 背景与动机
在高频、多尺度且非平稳的时序场景(如新能源产能预测、金融行情、用户行为流分析)中,单一网络分支 往往难以同时捕获
-
长程依赖(Transformer 长距离建模优势)
-
局部细粒信息(循环网络对短期波动敏感)
将 Transformer 与 双向 GRU(BiGRU) 以并行支路组合,并引入
-
Global Attention —— 强化对全局趋势的重要性重加权
-
Cross Attention —— 显式对齐两条特征序列、互补信息
可在不显著增加推理时延的前提下,提高复杂时序任务的精度与鲁棒性。
2 模型整体框架
组件 | 作用 | 关键超参 |
---|---|---|
Tr |