清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

当前通用的 Transformer 模型计算复杂度随序列长度平方增长,在长序列任务中面临显著的计算挑战。测试时训练(Test-Time Training,TTT)模型是一种新兴的序列建模范式,它将注意力操作重新定义为一个在线学习过程,在每次推理时用 Key-Value 对构建一个轻量化的内部模型。基于这些发现,本文构建了纯 TTT 架构 Vision Test-Time Training (ViT³)模型,它在各类视觉任务中表超越了现有线性复杂度模型,同时保持并行计算和高推理速度,为未来视觉 TTT 的研究提供了一个有力的基线。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x