AI 取代程序员还远!新基准 BeyondSWE:顶尖模型通过率暴跌至 45%

BeyondSWE 提出全新评测标准,考验 AI 跨仓库检索、领域知识理解、依赖升级和从零构建系统的能力,结果发现顶尖模型通过率暴跌至 45% 以下,暴露其缺乏真实工程思维 … 从最初不到 30% 的解决率,到如今 Gemini 3 Pro、GPT-5.2 等前沿模型突破 80%,社区似乎已经形成了一个共识:AI 正在快速逼近人类程序员的水平 … 基于 OpenHands 框架,BeyondSWE 对 Gemini 3 Pro、GPT-5.2、DeepSeek-V3.2、GLM-4.7、Kimi-K2、Seed-Coder 等一批前沿模型进行了全面测试。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧