这不是科幻小说,而是 METR(模型评估与训练研究组织)联合 Anthropic、Google、Meta 和 OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例 … 这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息 … 值得肯定的是,这份报告本身就是行业透明度的里程碑:四大巨头主动开放内部模型接受检验,本身就是对齐文化的一次胜利。
这不是科幻小说,而是 METR(模型评估与训练研究组织)联合 Anthropic、Google、Meta 和 OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例 … 这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息 … 值得肯定的是,这份报告本身就是行业透明度的里程碑:四大巨头主动开放内部模型接受检验,本身就是对齐文化的一次胜利。