OpenAI科学家Noam Brown：AI的真正上限，可能根本没人测得起

2026-6-10 20:18:10

随着大语言模型逐步进入复杂推理、自动化研究和网络安全等高难度任务，传统的模型评测方式正在面临新的挑战。长期以来，模型发布往往伴随着一张由多项基准测试构成的成绩表：数学、编程、科学问答、网络安全、知识推理等能力被压缩为若干分数，并据此与上一代模型进行横向比较。OpenAI 研究员 Noam Brown 近日撰文指出，当模型能够在回答问题时使用更多推理步骤、调用更多工具或执行更长时间的搜索与试验后，单一分数已越来越难以准确反映模型的实际能力。Brown 的核心观点是：大模型的表现不仅取决于模型本身，也越来越取决于模型在推理阶段获得了多少计算资源。

圈主管理员

热门评论

该帖子评论已关闭

图片审查中...

编辑答案：我的回答：最多上传一张图片和一个附件

表情

图片

附件

取消编辑

{{userData.name}}已认证

OpenAI科学家Noam Brown：AI的真正上限，可能根本没人测得起

偷瞄答案

{{userData.name}}已认证

OpenAI科学家Noam Brown：AI的真正上限，可能根本没人测得起

偷瞄答案

您还未加入该AI圈子