当前通用的 Transformer 模型计算复杂度随序列长度平方增长,在长序列任务中面临显著的计算挑战。测试时训练(Test-Time Training,TTT)模型是一种新兴的序列建模范式,它将注意力操作重新定义为一个在线学习过程,在每次推理时用 Key-Value 对构建一个轻量化的内部模型。基于这些发现,本文构建了纯 TTT 架构 Vision Test-Time Training (ViT³)模型,它在各类视觉任务中表超越了现有线性复杂度模型,同时保持并行计算和高推理速度,为未来视觉 TTT 的研究提供了一个有力的基线。
清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈
隐藏内容,支付积分阅读
已有90人购买此隐藏内容
隐藏内容,支付费用阅读
¥
已有86人购买此隐藏内容
隐藏内容,仅限以下用户组阅读
隐藏内容,登录后阅读
登录之后方可阅读隐藏内容
隐藏内容,评论后阅读
请在下面参与讨论之后,方可阅读隐藏内容
隐藏内容,加入AI圈子后阅读
您需要加入AI圈子之后才能查看帖子内容
您猜对了答案,下面是向您展示的隐藏信息:
[]
[¥]
向
提问:
隐藏内容,猜对答案后阅读
猜错啦:您选中的是「」,正确答案是:「」
多选人参与投票
单选人参与投票
PK人参与PK
·已选
已选·
投票后查看结果,您的选择是?
思想因碰撞产生火花,真理因辩论获得升华
热门评论
:
请先登录!
图片审查中...
登录之后回答问题,请先登录!
编辑答案:
我的回答:
最多上传一张图片和一个附件
x


