-
LMArena 评测:最大的 AI 模型盲测竞技场,谁强谁弱用户说了算
选大模型像开盲盒?ChatGPT、Claude、Gemini 都说自己最强,到底信谁?LMArena 的玩法很直接,把你的问题丢进去,两个匿名模型同时回答,你投票选更好的那个。420 万+ 真实用户投票撑起的 Elo 排行榜,覆盖文本、代码、图像、视频 9 大能力维度。从伯克利实验室走出来的开源项目,现在估值 17 亿美元。到底值不值得信,上手投几票就知道了。 产品概述 LMArena(原名 Ch…- 79
- 0
-
Claude Opus 4.7 深度评测:最强编程模型,也逃不过翻车命运
写个复杂多文件项目改完还要自己逐行审查?Claude Opus 4.7 可能就是被寄望来解决这个问题的。SWE-bench Pro 拿了 64.3% 的分数,视觉识别从 54% 飙到 98% 接近完美,100 万 token 上下文确实能吞下整个代码库。但新 tokenizer 让成本悄悄涨了三四成,自适应推理也让不少老用户骂它变懒了。 简单说说 Claude Opus 4.7 是 Anthrop…- 82
- 0
-
GPT-5.5 评测:比 Claude 强多少?值不值价格翻倍?
一位做数据分析的朋友上周跟我吐槽,说 GPT-5.4 写代码写到一半总"犯傻",推理链断得莫名其妙。4月24日凌晨 OpenAI 突然甩出 GPT-5.5,号称"自 GPT-4.5 以来第一次完全重新预训练",定位不再是聊天机器人,而是专门干活的智能体引擎。用了几天之后我的感受是:它确实变聪明了,但代价也很真实。 先说说这是啥 GPT-5.5 不是 GPT-…- 45
- 0






