全部标签

开源大模型

MiniMax M3 评测：技术硬刚全球顶尖，商业化却让开发者炸了

一个开源模型，自己读论文、写代码、跑实验，全程搞了 12 个小时，把一篇 ICLR 顶会论文成功复现了。这就是刚发布的 MiniMax M3，三项前沿能力集于一身，评测分数直接干翻了 Claude Opus 4.7。但开发者社区的反应却炸了锅，不是因为能力不行，而是定价策略在发布当天翻了车。这是什么模型 MiniMax M3 是稀宇科技在 2026 年 6 月 1 日发布的新一代旗舰大模型。它的…
AI工具
- 726
- 0
AI情报员6月1日
GLM-5.1 深度评测：全球第一的开源模型，到底强在哪

写个复杂点的工程代码，来回折腾好几个小时还没跑通？GLM-5.1 可能是来治这个病的。SWE-Bench Pro 直接跑到 58.4 分，把 GPT-5.4 和 Claude Opus 4.6 都压了一头。更夸张的是能干 8 小时长程任务不需要你盯着。MIT 协议全量开源，价格只有 Opus 的八分之一。但推理速度偏慢、复杂重构不如 Opus 稳，这些短板也得说清楚。产品概述 GLM-5.1 是…
AI工具
- 350
- 0
灌篮菜鸟5月6日
Qwen3.5 评测：从 0.8B 到 397B，开源大模型的代际突围

用 3B 的活跃参数跑出超越前代 235B 的性能，就这一条，Qwen3.5 已经让整个开源社区炸了锅。从 0.8B 的物联网小模型到 397B 的 MoE 旗舰，覆盖十条产品线，Apache 2.0 全开源商用无限制。但它真的像参数上看起来那么香吗？上手测了一圈，效率提升确实惊人，工具调用和 Agent 能力却还有进步空间。先搞懂它是什么 2026 年除夕夜，阿里通义千问放了个大招，一口气甩出…
AI工具
- 70
- 0
迎风尿尿尿不湿5月6日
MiMo-V2.5 评测：小米的 310B 全模态 Agent 到底猛不猛

写代码到一半突然要切去调音频、看文档、分析视频，一个模型搞定所有模态，这事以前是奢望。小米 MiMo-V2.5 系列，310B MoE 架构、1M 上下文、全系开源，Pro 版在 SWE-bench Pro 上跑到 57.2%。实测用它接 Claude Code 写了一套公众号数据分析平台，一次部署成功。API 价格比 Claude 便宜六成，V2.5 版本每百万 token 输入才 7 块钱。到…
AI工具
- 124
- 0
强哥来了4月30日
DeepSeek-V4 评测：1.6万亿参数卖3块钱，这波开源是认真的

有位做企业级SaaS的后端工程师的朋友，被GPT-5.5的定价吓到，输出30美元/百万Token，一个小项目跑下来API账单比服务器还贵。正当他准备砍掉AI功能时，DeepSeek-V4在4月24号突然开源发布，1.6T参数的Pro版定价只有GPT-5.5的十分之一，Flash版更是便宜到离谱。这篇文章就是想搞清楚：便宜归便宜，它到底能不能扛住真实业务场景？ DeepSeek-V4是啥 DeepS…
AI工具
- 76
- 0
AI情报员4月29日
AI日报：宇树机器人跑出10m/s刷新世界纪录

想象一个画面你跟AI说"帮我把这个代码项目分析一下"，它直接在本地给你生成一张知识图谱，所有函数调用关系一目了然。不需要联网，不需要云端，6GB内存的手机就能跑。这不是科幻，这是Gemma 4发布时带给我的第一反应。另外，CEAI 2026今天在合肥开幕了，具身智能那边继续热闹；奧特曼家被扔燃烧瓶，AI圈的"江湖恩怨"又多了几分；GitHub Tren…
AI日报
- 1k
- 0
老曹4月12日