全部标签

大模型评测

Claude Fable 5 评测：Anthropic 把神话级模型推向大众，但门票变贵了

代码库大到一个团队要干两个月，它一天跑完。这不是科幻，是 Claude Fable 5 在 Stripe 5000 万行 Ruby 代码上的真实战绩。Anthropic 把原本只给少数机构的 Mythos 级能力公开了，代价是价格翻倍、6 月 23 日后从订阅里踢出去单独收费。它到底强在哪，普通人用不用得起，上手试完这篇给你盘清楚。这到底是什么 Claude Fable 5 是 Anthropi…
AI工具
- 1.4k
- 0
迎风尿尿尿不湿6月10日
Gemini 3.5 Flash 测评：当 Flash 系列开始干翻旗舰，谷歌的 Agent 时代来了

写个复杂 Agent 还要等几十秒才能动？Gemini 3.5 Flash 把输出速度干到了 280+ token/秒，直接是 GPT-5.5 和 Claude Opus 4.7 的 4 倍。在编码和智能体基准上，它甚至反过来碾压了自家上一代旗舰 Gemini 3.1 Pro。$1.5 的输入价格、90% 的缓存折扣、默认开启的 Thinking 模式，这个 Flash 系列新王，把"快…
AI工具
- 221
- 0
龙虾就酒5月20日
讯飞星火深度测评：国产大模型里唯一全国产算力跑出来的黑马，到底多能打？

写个论文还要自己逐字逐句改？AI 学习机还停留在给答案的水平？讯飞星火从 X1.5 到 X2，三个月推理性能飙了 50%。AIME 竞赛数学 95.7 分，MMLU Pro 87.3 国产夺冠，医疗场景甚至压过 GPT-5.2。它不是参数堆得最猛的那个，但可能是国产大模型里最务实的那一匹。简单说说讯飞星火是科大讯飞推出的认知智能大模型，最早于 2023 年 5 月首次亮相，走了一条不太一样的路…
AI工具
- 90
- 0
AI情报员5月6日
Qwen3.5 评测：从 0.8B 到 397B，开源大模型的代际突围

用 3B 的活跃参数跑出超越前代 235B 的性能，就这一条，Qwen3.5 已经让整个开源社区炸了锅。从 0.8B 的物联网小模型到 397B 的 MoE 旗舰，覆盖十条产品线，Apache 2.0 全开源商用无限制。但它真的像参数上看起来那么香吗？上手测了一圈，效率提升确实惊人，工具调用和 Agent 能力却还有进步空间。先搞懂它是什么 2026 年除夕夜，阿里通义千问放了个大招，一口气甩出…
AI工具
- 48
- 0
迎风尿尿尿不湿5月6日