针对这一方向,论文提出了 FusionRoute,一种基于 token-level 路由的多 LLM 协作范式 … 不同于以往在整段生成中选择单一模型,FusionRoute 训练一个路由模型, 在每一步生成时,使用该路由模型动态判断当前这个 token 更适合由哪个专家模型来生成 … 在工程层面,FusionRoute 既不要求各专家模型结构同构,也无需对专家进行任何额外的梯度更新,仅需训练一个轻量级 router,就可以将一组现成的、结构异质的领域模型组装成一个综合能力更强的系统。
针对这一方向,论文提出了 FusionRoute,一种基于 token-level 路由的多 LLM 协作范式 … 不同于以往在整段生成中选择单一模型,FusionRoute 训练一个路由模型, 在每一步生成时,使用该路由模型动态判断当前这个 token 更适合由哪个专家模型来生成 … 在工程层面,FusionRoute 既不要求各专家模型结构同构,也无需对专家进行任何额外的梯度更新,仅需训练一个轻量级 router,就可以将一组现成的、结构异质的领域模型组装成一个综合能力更强的系统。