全部标签

AI模型评测

Claude Opus 5 深度评测：半价追平 Fable 5，Anthropic 这波有多猛？

花了半年等 Fable 5 降价？Anthropic 直接甩出了更狠的一手。Opus 5 在编程、复杂推理和 Agent 任务上逼近 Fable 5 的表现，价格一刀砍半。更低成本、更高效率，还默认开启了思考模式，这次的 Opus 升级不是挤牙膏，是直接换赛道。产品概述 Claude Opus 5 是 Anthropic 在 2026 年 7 月 24 日发布的新一代旗舰大模型，定位为日常高频使…
AI工具
- 854
- 0
半岛铁箱7月27日
Gemini 3.6 Flash 评测：省了 Token，涨了分数，但用户为啥不买账？

Google 昨天一口气发了三款新模型，主菜是 Gemini 3.6 Flash。官方说它更省 Token、编程更强、价格还降了。跑分也确实涨了，编程基准提升超过三成。但 X 上的用户反馈就没这么客气了，智能水平原地踏步，中文选词一塌糊涂，性价比还不如竞品。这事有意思，值得拆开看看。产品概述 Gemini 3.6 Flash 是 Google DeepMind 于 2026 年 7 月 21 日…
AI工具
- 1.2k
- 0
灌篮菜鸟7月22日
LMArena 评测：最大的 AI 模型盲测竞技场，谁强谁弱用户说了算

选大模型像开盲盒？ChatGPT、Claude、Gemini 都说自己最强，到底信谁？LMArena 的玩法很直接，把你的问题丢进去，两个匿名模型同时回答，你投票选更好的那个。420 万+ 真实用户投票撑起的 Elo 排行榜，覆盖文本、代码、图像、视频 9 大能力维度。从伯克利实验室走出来的开源项目，现在估值 17 亿美元。到底值不值得信，上手投几票就知道了。产品概述 LMArena（原名 Ch…
AI工具
- 150
- 0
灌篮菜鸟5月18日
Claude Opus 4.7 深度评测：最强编程模型，也逃不过翻车命运

写个复杂多文件项目改完还要自己逐行审查？Claude Opus 4.7 可能就是被寄望来解决这个问题的。SWE-bench Pro 拿了 64.3% 的分数，视觉识别从 54% 飙到 98% 接近完美，100 万 token 上下文确实能吞下整个代码库。但新 tokenizer 让成本悄悄涨了三四成，自适应推理也让不少老用户骂它变懒了。简单说说 Claude Opus 4.7 是 Anthrop…
AI工具
- 87
- 0
龙虾就酒5月1日
GPT-5.5 评测：比 Claude 强多少？值不值价格翻倍？

一位做数据分析的朋友上周跟我吐槽，说 GPT-5.4 写代码写到一半总"犯傻"，推理链断得莫名其妙。4月24日凌晨 OpenAI 突然甩出 GPT-5.5，号称"自 GPT-4.5 以来第一次完全重新预训练"，定位不再是聊天机器人，而是专门干活的智能体引擎。用了几天之后我的感受是：它确实变聪明了，但代价也很真实。先说说这是啥 GPT-5.5 不是 GPT-…
AI工具
- 70
- 0
半岛铁箱4月29日