Fable 5被设计成:一旦检测到用户正在从事前沿AI研发工作(比如训练流水线、分布式训练基础设施、ML加速器设计),模型会悄悄降低自己的回答质量——而且不通知用户。也就是说,你花着Fable 5的钱,收到的可能是Opus 4.8级别的活,还没有任何提示。
Anthropic为此用了提示词修改、转向向量等技术手段,让模型在特定查询下悄悄变笨,整个过程对用户完全不透明。
然后,更尴尬的来了。
也正因为Fable 5现在的降智操作变得「透明」了,一些有趣的情况随之浮出水面。
其中最让人无语的,就是Fable 5在ProgramBench基准测试上的「表现」。
那么,Fable 5成绩如何呢?
不是0分。是拒绝作答:200道题,全部拒绝!


