“智能体最后的考试”,Fable 5竟然不敌GPT 5.5

UC伯克利发布考查AI真实工作能力的新基准测试ALE。

结果显示:此前公认最强的Claude Fable 5通过率(22%)不敌GPT-5.5(24%),且耗费成本是其数倍;在最高难度任务下两者更是双双挂零。

这揭示出AI“做题学霸≠干活能手”,目前最强智能体应对真实复杂工作依然拉胯。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x