花了 1000 倍的 token，效果却没有更好：AI Agent 隐性账单长什么样

AI
5月18日

强哥来了

结果发现模型的 token 消耗排序基本不变，并且所有模型在失败任务子集上的 token 消耗都多于成功子集，不同模型从失败子集到成功子集的 token 消耗增量也各不相同 … 如果说人类消耗的时间就相当于 agent 消耗的 token，那么人类所估计的任务难度是否和 agent 的 token 开销是吻合的呢 … 在执行前成本预测方面，人类理解的任务难度与 Agent 的实际 token 消耗并不吻合，Agent 自身的预估也存在准确率较低和普遍低估的问题。

原文连接

{{userData.name}}已认证

花了 1000 倍的 token，效果却没有更好：AI Agent 隐性账单长什么样

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议