Router 的作用被低估了?vLLM 这个神器,让单次调用背后藏了一支模型协作小队

降低成本:什么时候必须用前沿模型,什么时候用开源 SOTA 模型,还是本地小模型已经足够 … 用户不用改权重,也不用让每个 Agent 团队都自己搭一套 Graph,而是在一次普通 Model API 调用的内部,组织出一支有边界、有预算、有验证、有回退的”小队”… 最近日本的 AI 公司 Sakana Fugu 热度很高,也引发了众多的讨论,他们推出的 Fugu 模型,是这个想法的商业化的版本:用户看到的是一个虚拟模型,但实际背后却是一组模型的动态协作。

原文连接