单一模型同时覆盖文本类环境(MCP、Search、Terminal、SWE)与 GUI 类环境(Web、OS、Android),实现跨领域知识迁移 … 同步发布的还有 AgentWorldBench,覆盖七大领域的语言世界模型评测基准,每条测试样本均配备真实环境执行所得的真实环境观测数据。
单一模型同时覆盖文本类环境(MCP、Search、Terminal、SWE)与 GUI 类环境(Web、OS、Android),实现跨领域知识迁移 … 同步发布的还有 AgentWorldBench,覆盖七大领域的语言世界模型评测基准,每条测试样本均配备真实环境执行所得的真实环境观测数据。