全部标签

Headroom

Headroom：AI Agent 的上下文压缩层，砍掉 90% Token 但答案不变

写 AI Agent 的人都有一个共同的焦虑：Token 烧得太快了。Agent 调一次工具返回几千字的 JSON，读一个文件灌进去几百行代码，RAG 检索拉回来一堆半相关的文档片段。这些内容里 70% 到 95% 是 LLM 根本不需要的噪音。但 Agent 不管，照单全塞进 prompt。更反直觉的是：把这些冗余信息砍掉 70% 到 95%，LLM 给出的答案几乎没变。不是"差不多…
开源项目
- 1.1k
- 0
jolly6月17日