都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了

当所有人都在比谁「想得更久、算得更多」——推理模型动辄输出成千上万个思考 token,循环式架构恨不得在内部反复迭代十遍八遍——一项新研究反手泼了盆冷水:一个 7B 的小模型,只需要在正常计算之外「多循环这一次」(总共 2 次),就能在号称最难的真实代码修复基准 SWE-bench Verified 上从 43.0 分飙到 64.4 分;一、「循环」,当下最热的卷法 自从 o1、Claude 这一代推理模型把「想得越久越强」写进行业共识,「测试时计算」(test-time compute)就成了过去一年最热的方向:与其把模型练得更大,不如让它在推理时多花点算力,把答案反复打磨。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x