OpenAI科学家Noam Brown:AI的真正上限,可能根本没人测得起

随着大语言模型逐步进入复杂推理、自动化研究和网络安全等高难度任务,传统的模型评测方式正在面临新的挑战。长期以来,模型发布往往伴随着一张由多项基准测试构成的成绩表:数学、编程、科学问答、网络安全、知识推理等能力被压缩为若干分数,并据此与上一代模型进行横向比较。OpenAI 研究员 Noam Brown 近日撰文指出,当模型能够在回答问题时使用更多推理步骤、调用更多工具或执行更长时间的搜索与试验后,单一分数已越来越难以准确反映模型的实际能力。Brown 的核心观点是:大模型的表现不仅取决于模型本身,也越来越取决于模型在推理阶段获得了多少计算资源。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x