当所有人都在比谁「想得更久、算得更多」——推理模型动辄输出成千上万个思考 token,循环式架构恨不得在内部反复迭代十遍八遍——一项新研究反手泼了盆冷水:一个 7B 的小模型,只需要在正常计算之外「多循环这一次」(总共 2 次),就能在号称最难的真实代码修复基准 SWE-bench Verified 上从 43.0 分飙到 64.4 分;一、「循环」,当下最热的卷法 自从 o1、Claude 这一代推理模型把「想得越久越强」写进行业共识,「测试时计算」(test-time compute)就成了过去一年最热的方向:与其把模型练得更大,不如让它在推理时多花点算力,把答案反复打磨。
都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了
隐藏内容,支付积分阅读
已有90人购买此隐藏内容
隐藏内容,支付费用阅读
¥
已有86人购买此隐藏内容
隐藏内容,仅限以下用户组阅读
隐藏内容,登录后阅读
登录之后方可阅读隐藏内容
隐藏内容,评论后阅读
请在下面参与讨论之后,方可阅读隐藏内容
隐藏内容,加入AI圈子后阅读
您需要加入AI圈子之后才能查看帖子内容
您猜对了答案,下面是向您展示的隐藏信息:
[]
[¥]
向
提问:
隐藏内容,猜对答案后阅读
猜错啦:您选中的是「」,正确答案是:「」
多选人参与投票
单选人参与投票
PK人参与PK
·已选
已选·
投票后查看结果,您的选择是?
思想因碰撞产生火花,真理因辩论获得升华
热门评论
:
请先登录!
图片审查中...
登录之后回答问题,请先登录!
编辑答案:
我的回答:
最多上传一张图片和一个附件
x


