在阿里自研的平头哥真武 M890 芯片上,仅凭借一个任务描述、一份 SGLang 现有实现和一个评估脚本,Qwen3.7-Max 就完成了任务 … 在一个模拟创业公司完整经营周期的基准测试 YC-Bench 里,它经营一家公司整整”一年”,任务横跨员工管理、合同筛选、识别恶意客户,还要在人力成本持续攀升的情况下守住盈利底线 … Terminal Bench 2.0-Terminus 是一个模拟真实终端开发环境的编程智能体基准,Qwen3.7-Max 得分 69.7,超过 DS-V4-Pro Max 的 67.9 和 Opus-4.6 的 65.4。

