来自清华大学、智谱的研究团队联合推出了 Vision2Web,这是一个旨在评估多模态代码 Agent 真实开发能力的分层级基准 … Vision2Web 通过构建包含静态网页、交互前端到全栈网站的三级进阶任务,结合工作流式的 Agent 验证机制,填补了现有评估体系的空白,为理解 AI 在长程、跨模态软件工程中的能力边界提供了全新视角 … 为解决端到端网站评估中功能测试与视觉测试的挑战,Vision2Web 采用基于工作流的 Agent 验证范式。
暂无讨论,说说你的看法吧
来自清华大学、智谱的研究团队联合推出了 Vision2Web,这是一个旨在评估多模态代码 Agent 真实开发能力的分层级基准 … Vision2Web 通过构建包含静态网页、交互前端到全栈网站的三级进阶任务,结合工作流式的 Agent 验证机制,填补了现有评估体系的空白,为理解 AI 在长程、跨模态软件工程中的能力边界提供了全新视角 … 为解决端到端网站评估中功能测试与视觉测试的挑战,Vision2Web 采用基于工作流的 Agent 验证范式。