花了 1000 倍的 token,效果却没有更好:AI Agent 隐性账单长什么样

结果发现模型的 token 消耗排序基本不变,并且所有模型在失败任务子集上的 token 消耗都多于成功子集,不同模型从失败子集到成功子集的 token 消耗增量也各不相同 … 如果说人类消耗的时间就相当于 agent 消耗的 token,那么人类所估计的任务难度是否和 agent 的 token 开销是吻合的呢 … 在执行前成本预测方面,人类理解的任务难度与 Agent 的实际 token 消耗并不吻合,Agent 自身的预估也存在准确率较低和普遍低估的问题。

原文连接