-
MiniMax M3 评测:技术硬刚全球顶尖,商业化却让开发者炸了
一个开源模型,自己读论文、写代码、跑实验,全程搞了 12 个小时,把一篇 ICLR 顶会论文成功复现了。这就是刚发布的 MiniMax M3,三项前沿能力集于一身,评测分数直接干翻了 Claude Opus 4.7。但开发者社区的反应却炸了锅,不是因为能力不行,而是定价策略在发布当天翻了车。 这是什么模型 MiniMax M3 是稀宇科技在 2026 年 6 月 1 日发布的新一代旗舰大模型。它的…- 58
- 0
-
GLM-5.1 深度评测:全球第一的开源模型,到底强在哪
写个复杂点的工程代码,来回折腾好几个小时还没跑通?GLM-5.1 可能是来治这个病的。SWE-Bench Pro 直接跑到 58.4 分,把 GPT-5.4 和 Claude Opus 4.6 都压了一头。更夸张的是能干 8 小时长程任务不需要你盯着。MIT 协议全量开源,价格只有 Opus 的八分之一。但推理速度偏慢、复杂重构不如 Opus 稳,这些短板也得说清楚。 产品概述 GLM-5.1 是…- 101
- 0
-
Qwen3.5 评测:从 0.8B 到 397B,开源大模型的代际突围
用 3B 的活跃参数跑出超越前代 235B 的性能,就这一条,Qwen3.5 已经让整个开源社区炸了锅。从 0.8B 的物联网小模型到 397B 的 MoE 旗舰,覆盖十条产品线,Apache 2.0 全开源商用无限制。但它真的像参数上看起来那么香吗?上手测了一圈,效率提升确实惊人,工具调用和 Agent 能力却还有进步空间。 先搞懂它是什么 2026 年除夕夜,阿里通义千问放了个大招,一口气甩出…- 9
- 0
-
MiMo-V2.5 评测:小米的 310B 全模态 Agent 到底猛不猛
写代码到一半突然要切去调音频、看文档、分析视频,一个模型搞定所有模态,这事以前是奢望。小米 MiMo-V2.5 系列,310B MoE 架构、1M 上下文、全系开源,Pro 版在 SWE-bench Pro 上跑到 57.2%。实测用它接 Claude Code 写了一套公众号数据分析平台,一次部署成功。API 价格比 Claude 便宜六成,V2.5 版本每百万 token 输入才 7 块钱。到…- 70
- 0
-
DeepSeek-V4 评测:1.6万亿参数卖3块钱,这波开源是认真的
有位做企业级SaaS的后端工程师的朋友,被GPT-5.5的定价吓到,输出30美元/百万Token,一个小项目跑下来API账单比服务器还贵。正当他准备砍掉AI功能时,DeepSeek-V4在4月24号突然开源发布,1.6T参数的Pro版定价只有GPT-5.5的十分之一,Flash版更是便宜到离谱。这篇文章就是想搞清楚:便宜归便宜,它到底能不能扛住真实业务场景? DeepSeek-V4是啥 DeepS…- 47
- 0
-
AI日报:宇树机器人跑出10m/s刷新世界纪录
想象一个画面 你跟AI说"帮我把这个代码项目分析一下",它直接在本地给你生成一张知识图谱,所有函数调用关系一目了然。不需要联网,不需要云端,6GB内存的手机就能跑。 这不是科幻,这是Gemma 4发布时带给我的第一反应。 另外,CEAI 2026今天在合肥开幕了,具身智能那边继续热闹;奧特曼家被扔燃烧瓶,AI圈的"江湖恩怨"又多了几分;GitHub Tren…- 1k
- 0











