ICLR 2026|PMDformer:尺度是否正在「偷偷绑架」注意力?一个简单减法实现长时序预测注意力机制纠偏

现有基于 Patch 的 Transformer 模型面临一个根本性挑战:非平稳时序数据中,Patch 之间的尺度差异会严重干扰注意力机制对形状相似性的捕捉,导致模型学习到错误的相关关系,预测精度受限 … 长期时序预测中,研究者常用 Patch 分割策略来捕捉长序列中的局部语义,但时序数据的非平稳性带来显著挑战 —— 同一序列在不同时段的数值尺度差异悬殊 … PMDformer 的成功揭示了时序预测领域一个长期被忽视但至关重要的问题:Patch 的均值(趋势)与残差(形状)耦合在一起,会系统性地损害注意力机制对形状相似性的建模能力。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧