大模型也要睡觉,而且睡得越久推理越强?

Offline Recurrence for Improved Online Inference)的论文提出:当模型的上下文窗口装满时,不急着丢弃注意力缓存,而是先进入一个”睡眠”阶段,对当前窗口内的内容执行 N 次离线递归前向传播,将信息逐步写入状态空间模型(state-space model,SSM)层的快速权重中 … 他们让一个 4 层的 GDN-注意力混合模型处理 Rule 110 元胞自动机任务:模型先观察初始状态,然后在注意力缓存被清空后预测若干步演化的结果 … 不循环的模型在 4 跳及以上的查询上几乎没有学到任何东西,2 次循环的模型在 8 跳以上同样停滞,只有 4 次循环的模型开始在最难的 16 跳任务上取得进展。

原文连接