你对 LLM 的评估体系会失效，而你甚至不会察觉

AI
5月18日

强哥来了

我们擅长评估已经存在的模型，却极不擅长评估即将构建的模型 —— 尤其是当模型跨越到新的能力阶段时 … 大多数基准测试、安全评估和红队演练协议都隐含假设：下一代模型是当前模型的更强版本。

顶踩