-
Claude Fable 5 评测:Anthropic 把神话级模型推向大众,但门票变贵了
代码库大到一个团队要干两个月,它一天跑完。这不是科幻,是 Claude Fable 5 在 Stripe 5000 万行 Ruby 代码上的真实战绩。Anthropic 把原本只给少数机构的 Mythos 级能力公开了,代价是价格翻倍、6 月 23 日后从订阅里踢出去单独收费。它到底强在哪,普通人用不用得起,上手试完这篇给你盘清楚。 这到底是什么 Claude Fable 5 是 Anthropi…- 1.4k
- 0
-
Gemini 3.5 Flash 测评:当 Flash 系列开始干翻旗舰,谷歌的 Agent 时代来了
写个复杂 Agent 还要等几十秒才能动?Gemini 3.5 Flash 把输出速度干到了 280+ token/秒,直接是 GPT-5.5 和 Claude Opus 4.7 的 4 倍。在编码和智能体基准上,它甚至反过来碾压了自家上一代旗舰 Gemini 3.1 Pro。$1.5 的输入价格、90% 的缓存折扣、默认开启的 Thinking 模式,这个 Flash 系列新王,把"快…- 221
- 0
-
讯飞星火深度测评:国产大模型里唯一全国产算力跑出来的黑马,到底多能打?
写个论文还要自己逐字逐句改?AI 学习机还停留在给答案的水平?讯飞星火从 X1.5 到 X2,三个月推理性能飙了 50%。AIME 竞赛数学 95.7 分,MMLU Pro 87.3 国产夺冠,医疗场景甚至压过 GPT-5.2。它不是参数堆得最猛的那个,但可能是国产大模型里最务实的那一匹。 简单说说 讯飞星火是科大讯飞推出的认知智能大模型,最早于 2023 年 5 月首次亮相,走了一条不太一样的路…- 90
- 0
-
Qwen3.5 评测:从 0.8B 到 397B,开源大模型的代际突围
用 3B 的活跃参数跑出超越前代 235B 的性能,就这一条,Qwen3.5 已经让整个开源社区炸了锅。从 0.8B 的物联网小模型到 397B 的 MoE 旗舰,覆盖十条产品线,Apache 2.0 全开源商用无限制。但它真的像参数上看起来那么香吗?上手测了一圈,效率提升确实惊人,工具调用和 Agent 能力却还有进步空间。 先搞懂它是什么 2026 年除夕夜,阿里通义千问放了个大招,一口气甩出…- 48
- 0







