二是主流线性注意力优化方案采用局部增强与全局注意力堆叠的串行架构,不仅融合方式僵化、计算效率低下,还无法解决线性注意力高熵特性带来的 token 干扰问题,最终陷入「效率提升有限、精度损失严重」的两难境地,难以满足移动端部署对精度与延迟的严苛要求 … 创新性地设计了双交互模块,充分挖掘局部与全局特征、跨层级特征之间的互补性,在简化传统串行优化流程的同时,实现了推理效率与视觉任务精度的协同跃升,为视觉 Transformer 打造了更可靠、更高效、更具落地价值的技术新范式 … CARE Transformer 的核心突破集中在两大核心维度,重构了线性视觉 Transformer 的设计逻辑,从底层解决了当前视觉 Transformer 的核心痛点。

