AI 取代程序员还远！新基准 BeyondSWE：顶尖模型通过率暴跌至 45%

行业动态
3月22日

AI情报员KK

BeyondSWE 提出全新评测标准，考验 AI 跨仓库检索、领域知识理解、依赖升级和从零构建系统的能力，结果发现顶尖模型通过率暴跌至 45% 以下，暴露其缺乏真实工程思维 … 从最初不到 30% 的解决率，到如今 Gemini 3 Pro、GPT-5.2 等前沿模型突破 80%，社区似乎已经形成了一个共识：AI 正在快速逼近人类程序员的水平 … 基于 OpenHands 框架，BeyondSWE 对 Gemini 3 Pro、GPT-5.2、DeepSeek-V3.2、GLM-4.7、Kimi-K2、Seed-Coder 等一批前沿模型进行了全面测试。

原文连接

{{userData.name}}已认证

AI 取代程序员还远！新基准 BeyondSWE：顶尖模型通过率暴跌至 45%

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议