AI 打榜,打的是什么?

激烈程度对这个以较量 AI Agent 机器学习水平的垂直领域来说,简直是破天荒的头一次 … 它不是为了测试模型会不会聊天、会不会写诗,而是测试 AI Agent 能不能像一个真正的机器学习工程师那样,独立完成一整套数据竞赛任务 … 一位长期关注 AI 评估范式的社区资深贡献者,AtrixTang 把这个比喻说得更狠:这就像用期末考试题当随堂测验的题目,学生一边做一边收到反馈,然后拿着同样的题目参加期末考试。

原文连接