-
GLM-5.1 深度评测:全球第一的开源模型,到底强在哪
写个复杂点的工程代码,来回折腾好几个小时还没跑通?GLM-5.1 可能是来治这个病的。SWE-Bench Pro 直接跑到 58.4 分,把 GPT-5.4 和 Claude Opus 4.6 都压了一头。更夸张的是能干 8 小时长程任务不需要你盯着。MIT 协议全量开源,价格只有 Opus 的八分之一。但推理速度偏慢、复杂重构不如 Opus 稳,这些短板也得说清楚。 产品概述 GLM-5.1 是…- 231
- 0
-
Claude Opus 4.7 深度评测:最强编程模型,也逃不过翻车命运
写个复杂多文件项目改完还要自己逐行审查?Claude Opus 4.7 可能就是被寄望来解决这个问题的。SWE-bench Pro 拿了 64.3% 的分数,视觉识别从 54% 飙到 98% 接近完美,100 万 token 上下文确实能吞下整个代码库。但新 tokenizer 让成本悄悄涨了三四成,自适应推理也让不少老用户骂它变懒了。 简单说说 Claude Opus 4.7 是 Anthrop…- 82
- 0




