你对 LLM 的评估体系会失效,而你甚至不会察觉

我们擅长评估已经存在的模型,却极不擅长评估即将构建的模型 —— 尤其是当模型跨越到新的能力阶段时 … 大多数基准测试、安全评估和红队演练协议都隐含假设:下一代模型是当前模型的更强版本。

原文连接