清华+阿里发布ViT³：解锁「视觉TTT」新架构，突破Transformer复杂度瓶颈

2026-5-18 22:12:56

当前通用的 Transformer 模型计算复杂度随序列长度平方增长，在长序列任务中面临显著的计算挑战。测试时训练（Test-Time Training，TTT）模型是一种新兴的序列建模范式，它将注意力操作重新定义为一个在线学习过程，在每次推理时用 Key-Value 对构建一个轻量化的内部模型。基于这些发现，本文构建了纯 TTT 架构 Vision Test-Time Training （ViT³）模型，它在各类视觉任务中表超越了现有线性复杂度模型，同时保持并行计算和高推理速度，为未来视觉 TTT 的研究提供了一个有力的基线。

圈主管理员

热门评论

该帖子评论已关闭

图片审查中...

编辑答案：我的回答：最多上传一张图片和一个附件

表情

图片

附件

取消编辑

{{userData.name}}已认证

清华+阿里发布ViT³：解锁「视觉TTT」新架构，突破Transformer复杂度瓶颈

偷瞄答案

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

清华+阿里发布ViT³：解锁「视觉TTT」新架构，突破Transformer复杂度瓶颈

偷瞄答案

您还未加入该AI圈子

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议