UC伯克利发布考查AI真实工作能力的新基准测试ALE。
结果显示:此前公认最强的Claude Fable 5通过率(22%)不敌GPT-5.5(24%),且耗费成本是其数倍;在最高难度任务下两者更是双双挂零。
这揭示出AI“做题学霸≠干活能手”,目前最强智能体应对真实复杂工作依然拉胯。
UC伯克利发布考查AI真实工作能力的新基准测试ALE。
结果显示:此前公认最强的Claude Fable 5通过率(22%)不敌GPT-5.5(24%),且耗费成本是其数倍;在最高难度任务下两者更是双双挂零。
这揭示出AI“做题学霸≠干活能手”,目前最强智能体应对真实复杂工作依然拉胯。
您猜对了答案,下面是向您展示的隐藏信息:
猜错啦:您选中的是「」,正确答案是:「」
·已选
已选·
请先登录!
登录之后回答问题,请先登录!