别光给 Agent 加 Tool 了,它根本选不明白!复旦 × 通义提出全新 CUA 训练范式

为应对这一挑战,复旦大学和通义实验室 MobileAgent 团队联合提出 ToolCUA,一个面向 GUI-Tool 混合动作空间的 Computer Use Agent … 论文提出 Interleaved GUI-Tool Trajectory Scaling Pipeline:从已有 GUI 轨迹出发,利用 MLLM 合成 grounded tool library,再将 GUI-only trajectories 转换成 interleaved GUI-Tool trajectories … 接下来,更值得继续和推进的方向,是构建更大规模的 CUA 工具,训练更大规模的 CUA 基座模型,让 CUA 原生具有 hybrid actions 的能力,更好地解决人类复杂问题。

原文连接