郭明錤:不存在「压缩 KV Cache 就能消除内存需求」的逻辑

郭明錤表示,不同参与者采用的方案多种多样,反映出内存密集型问题并非组件层面的问题,而是涉及硬件和软件的系统级挑战,上述方案彼此互补而不可替代,不存在「压缩键值缓存就能消除内存需求」这种简单的逻辑 … 随着 AI 推理品质与长文本需求的增加,目前主流的 Transformer \+ Attention 架构在生成每一个 Token 前,都必须读取庞大的 KV Cache … 不存在「压缩 KV cache → 记忆体需求消失」这类简化逻辑,而是需要在不同层级中同时、持续被缓解。

原文连接