大模型也要睡觉，而且睡得越久推理越强？

AI
6月01日

强哥来了

Offline Recurrence for Improved Online Inference）的论文提出：当模型的上下文窗口装满时，不急着丢弃注意力缓存，而是先进入一个”睡眠”阶段，对当前窗口内的内容执行 N 次离线递归前向传播，将信息逐步写入状态空间模型（state-space model，SSM）层的快速权重中 … 他们让一个 4 层的 GDN-注意力混合模型处理 Rule 110 元胞自动机任务：模型先观察初始状态，然后在注意力缓存被清空后预测若干步演化的结果 … 不循环的模型在 4 跳及以上的查询上几乎没有学到任何东西，2 次循环的模型在 8 跳以上同样停滞，只有 4 次循环的模型开始在最难的 16 跳任务上取得进展。

原文连接

{{userData.name}}已认证

大模型也要睡觉，而且睡得越久推理越强？

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议