Spatial-TTT：流式空间智能的另一条路，不是更长的窗口而是更聪明的记忆

过去一年，长视频理解的主流思路几乎是一个共识：把上下文窗口拉长。从 32 帧到 128 帧再到上千帧，大家比的是谁能往模型里塞进更多的画面。Spatial-TTT 这篇论文一上来就把这个共识掀了：核心挑战根本不是窗口够不够长，而是空间信息怎么被选择、组织和保留。

换句话说，你给模型看一段两小时的房间漫游视频，真正的难题不是它能不能”记住”这么多帧，而是它能不能把”沙发在窗户左边、桌子上有三个杯子、走廊尽头是厨房”这种 3D 空间证据，在画面不断流进来的过程中持续维护住。塞进上下文窗口是把信息堆着，不是把信息整理好。

Spatial-TTT 的答案是测试时训练（Test-Time Training，TTT）。它维护一组会在推理时在线更新的”快速权重”（fast weights），把这组权重当成一块紧凑的非线性记忆，边看视频边把空间证据压进去。这是清华大学、腾讯混元和南洋理工联合做的工作，2026 年 6 月刚被 ECCV 2026 接收，代码和论文都在 GitHub 上开源了。

整个机制可以用一条很短的流水线概括：视频流不是一次性灌进去的，而是分成一个个块流进来。

Spatial-TTT：流式空间智能的另一条路，不是更长的窗口而是更聪明的记忆

每来一个视频块，模型就用它在线更新快速权重，把这一段时间里的 3D 空间证据吸收进记忆里，然后再基于更新后的空间状态去回答问题。这就是”流式”两个字的含义：它处理的是源源不断的观测，而不是一段定长的录像。

这篇文章想讲明白的就一件事：用”会更新的记忆”代替”会膨胀的窗口”，这条路到底是噱头还是真有东西，以及如果你在做视频理解或者空间智能，它值不值得你花一个下午去读。

打动我的几个设计

先说最核心的那一下：快速权重当记忆。传统 Transformer 处理长视频，KV cache 是线性甚至更糟地膨胀，帧越多显存越扛不住。Spatial-TTT 把这套逻辑换掉了，它不存所有帧的 KV，而是让一组参数在线吸收信息，记忆体积近似恒定。论文给的数字很直接：在 1024 帧的输入下，相比基座 Qwen3-VL-2B，理论算力 TFLOPs 和峰值显存都砍掉了超过 40%。

Spatial-TTT：流式空间智能的另一条路，不是更长的窗口而是更聪明的记忆

上面这张图把”近线性扩展”这个抽象说法落到了地上。窗口派的方案在长序列下是被显存和算力拖死的，而 Spatial-TTT 靠在线更新的快速权重把曲线压平了，这是它敢说”流式”和”无界视频”的底气所在。

第二个我觉得有意思的是空间预测机制。常规的 TTT 用的是逐点投影，每个 token 各管各的，完全忽略了画面里的空间结构。Spatial-TTT 在 TTT 层上加了深度可分离的 3D 时空卷积，让快速权重去学”这一块空间和那一块空间、这一帧和下一帧之间的对应关系”，而不是把每个 token 当孤立的点。对于要理解几何结构和物体位置的空间任务，这个改动是对症的。

第三个是它的混合架构，不是把所有层都换成 TTT。Spatial-TTT 按 3:1 的比例，让 TTT 层和自注意力”锚点层”交错排布。TTT 层负责高效压缩长空间上下文，锚点层用来保住基座预训练里学到的视觉语义知识。这是个很务实的取舍，纯 TTT 容易把预训练能力丢掉，掺几层自注意力当锚，等于给模型留了根缆绳。

Spatial-TTT：流式空间智能的另一条路，不是更长的窗口而是更聪明的记忆

看这张架构图就清楚了，TTT 层内部其实是双分支并行：滑动窗口注意力（SWA）和 TTT 分支共享同一套 Q/K/V 投影，SWA 管块内的时空连续性，TTT 分支管跨块的长程记忆。这种并行设计加上大块更新（chunk size 给到 2648），是为了榨硬件并行度，不至于因为引入在线更新就把吞吐拖垮。

还有一个容易被忽略但其实很关键的点：数据。空间问答数据通常是稀疏的局部监督，梯度信号很弱，快速权重根本学不到怎么组织全局 3D 信息。作者专门构造了一套密集场景描述数据集，把全局上下文、物体和计数、空间关系都写进去，等于手把手教快速权重该往记忆里塞什么、怎么组织。架构再好，没有对的监督信号也是空转。

上手是什么感觉

先把预期摆正：这是一个研究代码库，不是一个 pip install 完就能用的产品。它的目录结构很学术，核心是基于 Qwen3-VL 改的 qwen-vl-finetune 训练框架，外加一套 VSI-Bench 评估脚本。想跑通，你得有趟过 PyTorch 训练栈的经验。

环境这一关不轻松。官方推荐 Python 3.10 以上，torch 要 2.6.0 起步，transformers 得 4.57.0，还要装 deepspeed、flash-attn、accelerate、peft、triton、torchcodec 这一串。flash-attn 那句 --no-build-isolation 的编译，凡是装过的人都知道有多容易卡住，CUDA 版本和 torch 版本一旦对不上就得返工。

conda create -n spatial-ttt python=3.10 -y
conda activate spatial-ttt
pip install torch torchvision deepspeed accelerate peft transformers==4.57.0
pip install flash-attn --no-build-isolation
pip install torchcodec qwen-vl-utils

训练这一步对硬件的要求更现实。官方训练脚本默认 8 卡起跑，chunk size 2648、窗口 2648、单视频最多 128 帧，用的是 Spatial-TTT-Data-97k 这套约 9.7 万样本的精简数据集。你得先去 Hugging Face 下数据，在 qwenvl/data/__init__.py 里配好标注路径和数据路径，再改训练脚本里的模型路径和输出目录。没有多卡机器，这一步基本只能看着别人跑。

评估相对友好一些。官方把 VSI-Bench 的评测脚本放在 evaluation/spatial/ 下，给一个 checkpoint 路径和输出名就能跑，默认 128 帧。如果你只是想验证一下方法的效果，而不是从头训，官方还放出了一个叫 Spatial-TTT-nano 的 SFT 小模型，在不到 100 万样本上训出来的，可以直接下来评测体验。

所以上手路径其实分两档：研究者想复现训练，得备好 8 卡和耐心；只想看效果的，下 nano 模型跑评估就行。这种”小模型先放出来让人试水”的做法，在学术开源里算是有诚意的。

什么人该看，什么人可以划走

这个项目的受众边界其实相当清晰。它不是给应用开发者准备的，是给做研究和做底层能力的人准备的。下面这张表把适用和不适用的情况摆清楚。

你的情况	适不适合	原因
研究长视频/流式视频理解	很适合	TTT 替代长上下文窗口是个有前瞻性的方向
做具身智能/空间感知	很适合	它本来就是冲着空间智能去的，VSI-Bench SOTA
想给产品集成一个视频问答模块	暂时别碰	只有 nano，全量模型还在 TODO，没法当生产组件
想要开箱即用的 API 或权重	等一等	完整模型和完整训练数据都还没放

最该泼的一盆冷水是发布进度。截至 2026 年 6 月，官方只放出了 nano 这个小模型和 97k 的迷你数据集，README 里的 TODO 清单还挂着三项没做：

全量模型：在全部数据上训出来的完整版本，也就是论文里拿 SOTA 的那个
完整训练数据：通用空间问答数据加上密集场景描述数据
更大规模的 Spatial-TTT 模型：参数量更大的后续版本

换句话说，论文里那个真正拿到 SOTA 成绩的主模型，现在你还下不到，手头能玩的只有 nano 这个用来验证方法的小号。

这就引出一个现实判断：如果你冲着”拿来即用的强空间视频模型”来的，现在来早了。但如果你是研究者，想验证 TTT 这条路的有效性、或者在它的训练框架上做二次开发，现有的 nano 模型加 97k 数据已经够你把方法跑通、把直觉建立起来了。两种需求，结论正好相反。

这项目靠不靠谱

先说一句实在的：用 GitHub 的 Star 数和 Issue 热度去衡量一个 2026 年 3 月才开源的研究代码库，本来就不公平。这类项目的社区信号不在 star，在论文本身的分量和同行的反应。

从这个角度看，Spatial-TTT 的底子相当硬。作者阵容里，通讯作者 Yongming Rao（饶永明，腾讯混元）和 Yueqi Duan（段悦琦，清华）都是计算机视觉领域有积累的研究者，共一的三位也都是活跃在视觉方向的博士。机构是清华大学、腾讯混元、南洋理工三家联合。最直接的同行认可，是这篇论文在 2026 年 6 月拿到了 ECCV 2026 的接收，这是计算机视觉三大顶会之一，过了同行评议这一关，比任何 star 都更能说明问题。

指标	情况
开源协议	Apache 2.0，商用友好
论文状态	ECCV 2026 接收，arXiv 2603.12255
代码活跃度	提交数不多，最近一次更新在 2026 年 6 月
已发布资产	nano 模型、97k 数据、streaming 数据、训练评估代码

还有一个容易被忽略的生态信号：README 主动把自己放出的 Spatial-TTT-Data-Streaming 数据集，关联到了另一个项目 Cambrian-S 的 VSR 和 VSC 任务上。Cambrian-S 是另一条做视频空间超感知的研究线，这种主动给同方向项目搭桥的做法，说明作者团队对自己在这个研究脉络里的位置很清楚，不是闷头发个 paper 就走。

代码维护这块要诚实：这是典型的研究项目节奏，27 个提交左右，更新围绕论文发布和 ECCV 接收这些节点走，不是那种天天有 commit 的活跃工程项目。指望它像生产级框架那样有快速的 Issue 响应和持续迭代，不现实。它的价值在方法和论文，不在工程维护。

我的真实判断

把它放回整个技术脉络里看，Spatial-TTT 的位置才清楚。它真正对标的不是某个产品，而是一整类”靠堆长上下文做视频理解”的思路，包括它自己的基座 Qwen3-VL。下面这张表，是我理解的它在同类工作里的坐标。

参照项目	处理长视频的方式	与 Spatial-TTT 的关系
Qwen3-VL	长上下文窗口 + 全注意力	它的基座，也是它要超越的对照组
Spatial-MLLM	静态空间理解，非流式	同组前作，Spatial-TTT 把它推向流式
Cambrian-S	视频空间超感知，另一条线	同方向，README 主动给它喂数据
Spatial-TTT	测试时训练 + 快速权重记忆	用在线更新的记忆替代膨胀的窗口

我的判断是，这个方向值得跟，但要看你跟的是什么。如果你跟的是”测试时训练能不能成为长序列建模的下一个范式”，那 Spatial-TTT 是一个很有信息量的早期样本。继 Mamba、线性注意力这些尝试之后，TTT 把”记忆”这件事变成了一组可在线训练的权重，思路上比固定的状态空间更灵活，Spatial-TTT 是把它落到视频空间智能这个具体场景的代表作之一。

但如果你跟的是”我现在就要一个能用的强模型”，那得踩刹车。前面说过，全量模型和完整数据还在 TODO 里挂着，nano 只是个验证用的小号。研究开源里”先放论文和小模型、大模型慢慢补”是常态，但常态不等于一定会补齐，TODO 清单能不能落地，得看团队后续的投入。这是跟任何研究代码库都要承担的不确定性。

还有个值得想的点：TTT 这条路的代价是什么？在线更新快速权重，意味着推理时多了一份训练的开销，虽然论文用大块更新和并行设计把吞吐压住了，但这套机制的工程复杂度明显高于”无脑加长窗口”。它在长序列上省了算力和显存，可在中短序列上，这套机制的额外开销值不值，论文里没有特别强调，这是我会留意的地方。

落到一句话：Spatial-TTT 不是给你拿去做产品的，是给你拿去想问题的。它最大的价值，是用一个拿到 ECCV 2026 和 VSI-Bench SOTA 的实证，把”流式空间智能不该靠堆窗口”这个判断，从口号变成了可复现的代码。这件事，对在做视频理解和空间智能的人来说，比一个能跑的 demo 更重要。

资源地址

资源	地址
GitHub 仓库	https://github.com/THU-SI/Spatial-TTT
论文 arXiv	https://arxiv.org/abs/2603.12255
项目主页	https://liuff19.github.io/Spatial-TTT/
nano 模型	https://huggingface.co/THU-SI/Spatial-TTT-nano
训练数据集 97k	https://huggingface.co/datasets/THU-SI/Spatial-TTT-Data-97k
流式数据集	https://huggingface.co/datasets/THU-SI/Spatial-TTT-Data-Streaming

一句话定调：这是给研究者的样本，不是给用户的产品

如果你在做视频理解、长序列建模或者空间智能，Spatial-TTT 应该进你的阅读清单。它把测试时训练这个有点抽象的范式，落到了流式空间感知这个具体场景，还拿出了 ECCV 2026 和 VSI-Bench SOTA 当证据，这比绝大多数停在 idea 阶段的工作扎实得多。

但别带着”下个权重就能用”的期待来。现阶段它只放出了 nano 小模型和迷你数据，全量模型和完整数据还在 TODO 里。它现在的身份，是一个让你验证方向、建立直觉、做二次研究的起点，而不是一个生产组件。

往大了说，这个项目真正有意思的地方，是它代表的那个判断：长视频理解的瓶颈，可能从来都不是窗口不够长，而是记忆不够聪明。这个判断对不对，未来一两年的视频大模型会给答案。而 Spatial-TTT，是少数已经把这个判断写成可复现代码的早期玩家之一。

{{userData.name}}已认证

Spatial-TTT：流式空间智能的另一条路，不是更长的窗口而是更聪明的记忆

打动我的几个设计

上手是什么感觉

什么人该看，什么人可以划走

这项目靠不靠谱

我的真实判断

资源地址

一句话定调：这是给研究者的样本，不是给用户的产品

百度 Unlimited-OCR：论文先到、工程未至的长文档解析新解法

JoyAI-VL-Interaction：这不是视频理解，这是"在场感"

creating-financial-models：把投行分析师的活全包了

别再手动复制 Skill了：多 Agent 时代的 Skill 管理方案

Loop Engineering 到底是什么？看这一篇就够了

competitive-analysis：这个零代码 Skill 凭什么值得拆

为什么很多 AI 设计稿看起来不错，却很难落地？TRAE Work Design 给了一个新解法

Xiaomi Miloco 2.0：把家里的摄像头交给大模型当管家，这事靠谱吗

构建 AI 时代的知识底座：直播数据 LLM Wiki 实践

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

打动我的几个设计

上手是什么感觉

什么人该看，什么人可以划走

这项目靠不靠谱

我的真实判断

资源地址

一句话定调：这是给研究者的样本，不是给用户的产品

百度 Unlimited-OCR：论文先到、工程未至的长文档解析新解法

JoyAI-VL-Interaction：这不是视频理解，这是"在场感"

creating-financial-models：把投行分析师的活全包了

别再手动复制 Skill了：多 Agent 时代的 Skill 管理方案

Loop Engineering 到底是什么？看这一篇就够了

competitive-analysis：这个零代码 Skill 凭什么值得拆

为什么很多 AI 设计稿看起来不错，却很难落地？TRAE Work Design 给了一个新解法

Xiaomi Miloco 2.0：把家里的摄像头交给大模型当管家，这事靠谱吗

构建 AI 时代的知识底座：直播数据 LLM Wiki 实践

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议